Sõna vabadusest, andmepõhiselt

2020. aastal EKI sõnastikureformiga lahvatanud arutelus keelekorralduse, reeglite ja normingute üle toodi ühe argumendina välja, et „kui isegi keeleharitud inimesed ei suuda teatud normingut (s.t kokkulepet) järgida, siis on selge, et see on kunstlik“². Samas arvamusloos teeb Peeter Päll siiski möönduse: „… oleme me kõik kirjakeele normi koolis õppinud ning sageli teeme järeldusi inimese tõsiseltvõetavuse üle selle põhjal, kui hästi nad selle normi või normingu on omandanud ning kui hästi nad kirjutavad.“

Normingud. Need kokkuleppelised normingud räägivad peamiselt ortograafia ja vormimoodustuse reeglitest, mis on ka minu loomuliku keeletaju suhtes üsna vägivaldsed. Teen igal aastal e-etteütluses vigu suure ja väikse algustähe, mõttekriipsude, sidekriipsude ja kaksiksõnade kokku-lahkukirjutamise koha peal, sest järjekordseid norminguid ja nende muutusi ei ole minuga keegi kokku leppinud ja kooliajast on ka mõnikümmend aastat möödas. Minu suhteliselt korrektset kirjalikku keelekasutust on ilmselgelt enim mõjutanud see, et 1980ndatel toimetamata tekste naljalt ei ilmunud ja vigased vormid õrnas lapseeas mu silme ette ei jõudnudki. Mul on tänapäeval tõeliselt kahju koolilastest ja õpetajatestki, sest mingitki ühtlustatud kirjakeelt on ka suurema lugemuse baasil neti- ja nutiajastul keeruline omandada (ma ei räägi isegi teadvustatud õppimisest), kui ümberringi vohavad nii keeleliselt kui ka kirjaliselt mitmekesised tekstimassiivid, et mitte öelda hullemini.

Mäletan kooliajast ka seda, et olid olemas õigekirja, punktuatsiooni ja vormimoodustuse reeglid, aga pidasin neid pigem nuputamisülesanneteks kui tekstiloome juhisteks. Sellest kõigest teen avastusliku järelduse, et omandasin korrektse kirjakeele suure ja ühtlase (toimetatud!) andmestiku pealt intuitiivselt õppides. Sellest on jäänud teatav usaldus ja austus kirjutatud sõna vastu ja tugev enesetsensuur kirjalikus eneseväljenduses. Filoloogiaõpingud ja keeleteadlase karjäär lisasid teataval määral enesekindlust, et tegelikult pole olemas ka häid ja halbu või õigeid ja valesid sõnu, on ainult rohkem või vähem olukorda ja stiili sobiv keelekasutus.

Ometi näikse diskussiooni pahameelepunkt pidevalt libisevat ebaloogiliste ortograafiareeglite pealt sõnade tähenduse piiramise või õiges ja vales tähenduses kasutamise peale.³ Nagu märgib prof Lindström värskes arvamusloos⁴, „peaks demokraatliku ühiskonna keelekorraldus võtma arvesse tegelikku keelekasutust, et vähendada lõhet inimeste sisemise keeletunnetuse ja olemasolevate „ametlike“ normingute vahel“.

EKI ühendkorpuse jaotus allkorpuste kaupa ERÜ aastaraamatu andmete alusel.1

Eesti Rakenduslingvistika Ühingu aastaraamat

Sõnade tähendus. Sõnade tähenduse osas … ei ole olemas reegleid. See on ka põhjus, miks sõnasemantika ja laiemalt tähenduste taipamine on arvutile ja tehistaibule siiani iseseisvalt (näiteks närvivõrkude või süvaõppe abiga) lahendamatu ülesanne. Sõnastikus on olemas definitsioonid või sõnaseletused, mille leksikograafid on oma maailmataju ja arvukate näidete põhjal kokku pannud. See on heuristiline teadmine, mitte reegel. Keelekorraldajad on seni soovitanud suurema selguse huvides kasutada sõna ühes või teises tähenduses ja sageli on sel soovitusel vähemalt niipalju faktilist argumenti all, et teravdatud keeletajuga inimesed (nii keeleteadlased kui ka keelekorraldajad, sageli ka ühes isikus) on tähele pannud, kui eksitavalt tasakaalust välja võib ühe või teise tähenduse ülekasutus loomuliku keeletaju viia (näiteks muuta keelekasutuse kantseliitlikuks ja raskepäraseks). Sõna liiderlik võib tõepoolest olla kellegi vaimukas juhutuletis sõnast liider, kuid kui kontekstist ei selgu, et sõna põhitähendus on keelekasutajale samuti tuttav, siis on ikka piinlik küll. Ja nagu märgib Heiki-Jaan Kaalep Arvi Tavastile antud intervjuus⁵: „Võib-olla see polegi keeleteaduse küsimus, kas sõnale on antud uus tähendus või tuletatud uus sõna?“

Ei tahaks aga kuidagi nõustuda Tavasti väitega, et „meie kultuuris levinud küsimused „Kas eesti keeles tohib niimoodi öelda?“ või lausa „Kas eesti keeles saab niimoodi öelda?“, on tõend, et oleme keele uurijate, korraldajate, toimetajate ja õpetajatena teinud midagi väga valesti“⁶. Mul oli õnneks õpetaja, kes vastas seepeale „Nii võib, aga pole ilus“. ÕS on ainult üks allikas, kust järele vaadata asju, mis seal on. Pigem tuleks keelekasutajat harida selles vallas, et ÕS pole mingi „jumala poolt loodud elajate“ nimekiri ja sealt puuduolev on saatanast. Küll aga oleks minu arvates saatanast jätta EKI ühendsõnastikust ja ÕSist välja (sõnade, sõnavormide, konstruktsioonide) kasutussoovitused, mida selgema ja arusaadavama keelekasutuse pooldajad sinna ekspertidelt otsima lähevad.

Korrektne ja vigane keel. Keelevabaduse, keelekasutuse, kirjakeele ja keelekorralduse ümber puhkenud poleemikas on võtnud Sirbis⁷ sõna ka pigem keeleliberaalne keeleteadlane Tiit Hennoste: „… ma poleks iialgi arvanud, et aastal 2021 pean ma hakkama korrektse kirjakeele kaitsjaks. [—] Vigane keel ei ole kirjakeel ega ka mitte liberaliseeritud eesti keel. Isegi siis mitte, kui seda kasutavad Eesti Vabariigi ametnikud. Vigane keel on lihtsalt vigane keel. Ja kõik.“ Hennoste räägib siin korrektsest kirjakeelest ja vastandab selle vigasele keelele. Järelikult on kirjakeeles olemas nii õige kui ka vale ja selle teadmise või äratundmise järele küsib ka keelekasutaja. Kuidas saadakse korrektne kirjakeel, kes selle korrektseks hindab? Ja veel tähtsam – kuidas seda õppida või omandada saab? Ma olen kaugel utoopilisest ideest, et selle saavutamiseks suudavad keeleinimesed sõnastada kõik reeglid ja mõni imeinimene õpib need kõik ära ja kasutab kõlbulikult. Aga sama kaugel olen ma ka usust, et korrektset kirjakeelt on võimalik tõenduspõhiselt tuletada laialdaste keeleandmete pealt.

Veebikroolija andmestik. Hiljuti ilmus ERRi portaalis uudis⁸, et EKI kogus kokku 2,4 miljardi sõna mahus eestikeelseid tekste. Jutt on EKI eesti keele ühendkorpuste sarja värskeimast väljalaskest, mille kohta on ilmunud üksikasjalikum teadusartikkel⁹ Eesti Rakenduslingvistika Ühingu aastaraamatus ja mida esitleti eile alanud rakenduslingvistika XIX kevadkonverentsil „Keele mõju: andmetest tõendatud teadmuseni“¹⁰.

Kõlab uhkelt ja jätab mulje, et andmepõhiseid tulemusi eesti keelekorralduse jaoks võiks hakata tulema nagu saelaudu Vändrast (on’s Vändras mõni saetööstus alles?). Siiski peab märkima, et kogutud andmestik ei esinda eesti keele kasutust piisavalt ühtlaselt ei ajaliselt ega žanriliselt ja järeldustega tuleb olla üpris ettevaatlik.

Esiteks, 91% ühendkorpuse mahust moodustavad viimase kümnendi jooksul veebis avaldatud eestikeelsed tekstid ja nende katked – kuid mitte kõik. Tegijad möönavad isegi, et veebikroolijale (robot, mis veebist etteantud aadressidelt tekste korjab) jääb kättesaamatuks sotsiaalmeediakontode, tasuline (nt uudisteportaalid) ning suletud sisu. Olulist müra andmetes tekitavad masintõlkelised tekstid ja veebispämm, samuti ei saa alati usaldada avaldamise kuupäeva. Kuigi müra on inimese treenitud automaatsete vahenditega enamasti välja roogitud, jääb kogu korpus ainult ligipääsetavate veebitekstižanride poole kaldu.

Teiseks, järelduste tegemiseks on iga teksti kohta vaja teada tunduvalt rohkem tausta-andmeid. Veebikroolimise tulemusena teame pahatihti vaid teksti veebiaadressi, kuid teadmata jääb teksti (algne) autor ja tema keeleline taust ning seegi, kas teksti on tõlkinud või toimetanud inimene. Nagu eespool mainitud, vahel võib teadmata jääda või ekslikuks osutuda ka teksti algse avaldamise aeg. Tublit tööd on tehtud veebitekstide automaatse klassifitseerimisega, üritatud kõikidele kogutud veebiallikatele lisada žanri (blogid, foorumid, perioodika, veebikaubandus, entsüklopeedia, akadeemiline kirjutamine) ja/või teemat (24 teemat, alustades kultuurist ja meelelahutusest ning lõpetades põllumajandusega). Kahjuks on tulemused üpris kesised: vaid 32% veebilehtedest on saanud mingisugusegi žanriliigituse ning 37% teemaliigituse.

Ja viimaks, milliste keelenähtuste või -trendide kohta ülepea on sellisest andmestikust võimalik korrektseid statistilisi või tõenäosuslikke järeldusi teha?

1 Kristina Koppel, Jelena Kallas, Eesti keele ühendkorpuste sari 2013–2021: mahukaim eestikeelsete digitekstide kogu. – Eesti Rakenduslingvistika Ühingu aastaraamat, 2022, nr 18, lk 207–228.

2 Merit Maarits, Keeleteadlased: eesti keel on vaba, aga võiks olla veel vabam. – ERR Kultuur, 27. X 2020, https://kultuur.err.ee/1149567/keeleteadlased-eesti-keel-on-vaba-aga-voiks-olla-veel-vabam

3 Arvi Tavast: milleks meile eesti keel? – ERR Arvamus 11. V 2022,

https://www.err.ee/1608593491/arvi-tavast-milleks-meile-eesti-keel

4 Liina Lindström: eesti keel olgu mugav töövahend, mitte veskikivi kaelas. – ERR Arvamus 29. IV 2022,

https://www.err.ee/1608581500/liina-lindstrom-eesti-keel-olgu-mugav-toovahend-mitte-veskikivi-kaelas

5 Oma reeglid avastab igaüks ise. Arvi Tavasti intervjuu Heiki-Jaan Kaalepiga. – Keel ja Kirjandus 2022, nr 5, lk 452–459. https://keeljakirjandus.ee/ee/archives/31377

6 Arvi Tavast: milleks meile eesti keel?

7 Tiit Hennoste, Kirjakeel hõlmab täitunud kirjakeel. – Sirp 2. VII 2021. https://www.sirp.ee/s1-artiklid/ arvamus/kirjakeel-holmab-taitunud-kirjakeel/

8 EKI kogus kokku 2,4 miljardi sõna mahus eestikeelseid tekste. – ERR Kirjandus 21. IV 2022. https://kultuur.err.ee/1608571411/eki-kogus-kokku-2-4-miljardi-sona-mahus-eestikeelseid-tekste

9 Kristina Koppel, Jelena Kallas, Eesti keele ühendkorpuste sari 2013–2021.

10 https://www.rakenduslingvistika.ee/ kevadkonverents/