Keeletehnoloogia konverentsi järelmõtteid

Einar Meister, TTÜ Küberneetika Instituudi foneetika ja kõnetehnoloogia labor

4. ? 6. aprillini toimus Tallinnas TTÜ Küberneetika Instituudi ja Eesti Keele Instituudi korraldusel II Balti keeletehnoloogia konverents. Rahvusvahelisel teadusüritusel osales peale Balti riikide keeletehnoloogide teadlasi ja kraadiõppureid mitmetest Euroopa Liidu riikidest, Venemaalt, Kanadast ja Jaapanist, kokku sadakond osalejat 15 riigist. Konverentsi teaduslik tase oli kõrge, seda eelkõige tänu maailmanimega kutsutud esinejatele: Nick Campbell, Sadaoki Furui, Steven Krauwer, Christoph Draxler, Björn Granström, Helge Dyvik, Kristiina Jokinen, Martin Volk, Graham Wilcock.

Tippteadlaste plenaarettekanded ja loengud õpikodades näitasid maailmataset mitmes keeletehnoloogia valdkonnas: kõnesünteesi ja -tuvastuse, inimese-masina dialoogi modelleerimise, masintõlke ja keeleressursside loomise alal.  Kindlasti leidsid konverentsil osalejad neist loenguist hulgaliselt uusi ideid ning inspiratsiooni oma uurimistöö jätkamiseks. Oli liigutav lugeda ühelt kraadiõppurilt tulnud kirja: ta arvas leidnud olevat oma vaimse isa, kelle loeng muutis põhjalikult kogu tema senist ettekujutust uuritava probleemi olemusest.

Eestist oli konverentsil esindatud kõik kolm aktiivselt tegutsevat keeletehnoloogia uurimiskeskust: TÜ arvutilingvistika töörühm, Eesti Keele Instituut ning TTÜ Küberneetika Instituudi foneetika ja kõnetehnoloogia labor. Konverentsiettekanded näitasid, et Eesti keeletehnoloogide uurimistöö on igati heal tasemel ja kindlasti pole meil põhjust oma tulemusi ka rahvusvahelise mõõdupuu järgi häbeneda ? Läti ning Leeduga võrreldes on meie seis kohati paremgi.

 

Gutenbergi efekt

 

Paljud maailma riigid on mõistnud, et oma keelelise ja kultuurilise identiteedi säilitamiseks infoühiskonnas on vaja välja töötada rahvuskeelte keeletehnoloogiline tugi. Infoühiskonna mõju keelte arengule võrreldakse protsessiga, mis leidis aset pärast trükikunsti leiutamist. Nimelt kadusid maailmast üsna kiiresti need keeled, millel puudus kirjalik vorm ? suulist keelt lihtsalt ei olnud võimalik Gutenbergi trükimasinaga jäädvustada ja helisalvestuse leiutamiseni kulus veel mitu sajandit. Trükikunsti levikuga kasvas kirjaliku informatsiooni hulk plahvatuslikult ja see lõi uued võimalused keelte arenguks ning kasutamiseks. Kuid sellest inimkonna ühest innovaatilisemast leiutisest võitsid ainult need keeled, mis olid tehnoloogiliselt kõlbulikud, st oli olemas keele kirjutatav vorm.

Selline Gutenbergi efekt toimib ka tänapäeva infoühiskonnas. Info- ja kommunikatsioonitehnoloogia arengu tõttu töödeldakse üha suurem hulk informatsiooni automaatselt. Suurem osa meile vajalikust infost on esitatud keelelisel kujul, seega saab automaattöötlust rakendada ainult nende keelte puhul, mille jaoks on loodud vastavad keeletehnoloogilised vahendid. Need on meetodid ja programmid keele morfoloogiliseks, süntaktiliseks ja semantiliseks analüüsiks, dialoogi modelleerimiseks, kõne analüüsiks, sünteesiks ja tuvastuseks ning masintõlkeks. Microsoft esitas oma karmi visiooni keelte arengust 1998. aasta rahvusvahelisel keeleressursside  konverentsil järgmiselt: keeled, mida Microsoft elektrooniliselt ei toeta, hakkavad tasapisi välja surema.

Kuna kõik maailma keeled erinevad millegi poolest, siis ei ole olemas täiesti universaalseid, kõigile keeltele sobivaid ühtseid tehnoloogilisi lahendusi. Näiteks inglise keele jaoks välja töötatud kõnesünteesi ei saa kuidagi kasutada eestikeelse kõne sünteesiks, ei häkerdamise ega sõnastiku vahetamise abil. Paljud teoreetilised mudelid on küll (pool)universaalsed, kuid vajavad eri keelte puhul vähemat või suuremat kohandamist. Hinnanguliselt on universaalsete komponentide osakaal erinevate tehnoloogiliste lahenduste puhul 40 ? 60%, ülejäänu on rangelt keelespetsiifiline. Seetõttu pole erilist vahet, kas luuakse kõnetuvastust eesti või suahiili keele jaoks ? see on iga keele puhul ühtmoodi teadmiste- ja töömahukas ning kallis. Kui mingi keeletehnoloogiline lahendus luuakse ingliskeelsele turule, siis võib sellega pärast uurimis- ja arendustööde kulude kinnimaksmist veel päris korralikku kasumit teenida, poolakeelse toote puhul on kulud-tulud ehk enam-vähem tasakaalus või pisut plussis, kuid eestikeelse toote puhul on väljatöötaja raudselt pankrotis. On antud hinnanguid, et majanduslikult tasub keeletehnoloogia arendus end ära alates 10 miljonist kõnelejast.

 

 

Riigi roll

 

Kui eesti keele kõnelejaid on maailmas alla 1,5 miljoni, siis on selge, et keeletehnoloogia arendus ei saa toimuda turumajanduse reeglite kohaselt. Et eesti keel oleks tehnoloogiliselt jätkusuutlik, on vajalik, et keeletehnoloogilist uurimis- ja arendustööd finantseeritakse maksumaksja rahaga. Õnneks on keeletehnoloogia leidnud äramärkimist mitmetes olulistes riikliku tähtsusega dokumentides, näiteks Eesti teadus- ja arendustegevuse strateegia ?Teadmistepõhine Eesti? võtmevaldkonna ?Kasutajasõbralikud infotehnoloogiad ja infoühiskonna areng? osana ja ka valitsuses heaks kiidetud ?Eesti keele arendamise strateegia (2004 ? 2010)? sisaldab vastavat peatükki. Viimasest lähtuvalt on koostatud riikliku programmi  ?Eesti keele keeletehnoloogiline tugi (2006 ? 2010)? kavand, mille vastuvõtmine äsja ametisse astunud valitsuse poolt annaks uue impulsi valdkonna arenguks. Igatahes kinnitas riigikogu kultuurikomisjoni esimees Olav Aarna konverentsi avakõnes, et riik peab eesti keele säilimist ja keeletehnoloogia arendamist vägagi oluliseks.

Keeletehnoloogia on ka üks Euroopa Liidu prioriteete, mida toetatakse mitme programmi kaudu. Kuid äsjase konverentsi plenaarettekandes ei andnud Hollandi teadlane Steven Krauwer väikeriikidele erilist lootust. Ettekandja käsitles meilegi olulisi küsimusi ? kuidas kohaneda mitmekeelses ja -kultuurilises Euroopa Liidus, kaotamata oma keelelist ja kultuurilist identiteeti ? ja tõdes, et vaatamata kõigi liikmesriikide keelte võrdse staatuse deklareerimisele, domineerib ELi asjaajamises 3-4 keelt. ELi teadus-arendustöö programmidest suunatakse igal aastal kümneid (kui mitte sadu) miljoneid eurosid keeletehnoloogia arendamiseks, kuid see läheb eelkõige nendesamade 3-4 majanduslikult domineeriva keele tehnoloogiliseks arendamiseks!

Konverents näitas selgelt ka seda, et Eestis ei ole ühtki tõsiseltvõetavat firmat, kes oleks valmis investeerima keeletehnoloogia arendamisse. Kutse konverentsile saadeti mitmele firmale, kes keeletehnoloogia valdkonna vastu on huvi üles näidanud, konverentsi reklaam oli ka Eesti Infotehnoloogia Seltsi kodulehel. Konverentsil oleks olnud väga hea võimalus teada saada, milline on keeletehnoloogia seis Eestis ja maailmas täna, milliseid tooted ja teenused on maailmas juba turuküpsed, milliseid tehnoloogilisi lahendusi võiks oodata lähiaastatel. Kahjuks ei osalenud konverentsil ühtegi paljukiidetud Eesti IT- ja kommunikatsioonivaldkonna firmade teenusearendajat või programmeerijat. Ei ole meil täna Daimler-Chrysleri visiooniga firmasid, kes oma tootearenduses mõtleksid kaugemale kui üks aasta. Sellest on ääretult kahju.

 

Keeletehnoloogia Arenduskeskus

 

2003. aastal käivitati valitsuse otsusel tehnoloogia arenduskeskuste (TAK) riiklik programm. Ka meie kolm keeletehnoloogia uurimisgruppi esitasid ühise taotluse Eesti Keeletehnoloogia Arenduskeskuse (EKTAK) loomiseks. Meie taotlus läbis edukalt kaks konkursivooru ja osutus üheks kuuest positiivse finantseerimisotsuse saanud taotlusest. Juba näis, et keeletehnoloogia edukaks arenguks on kõik teed valla, kuid arenduskeskusest siiski asja ei saanud. Miks?

Põhiliseks takistuseks said TAKi programmis paika pandud reeglid: esiteks, EKTAK olnuks vaja luua iseseisva juriidilise isikuna. See uus asutus oleks saanud tekkida ainult olemasolevate uurimisrühmade lõhkumise hinnaga ? ükski akadeemiline partner ei olnud nõus loobuma oma uurijatest, neid on niigi vähe. Ja teiseks, nõutud baasuuringute ja arendustööde proportsioon (50%/50%) ei arvestanud reaalset keeletehnoloogia uuringute seisu. Arendustöödeks vajalike keeleressursside loomine ja baasuuringute teostamine on aeganõudev ja möödapääsmatu: ei saa astuda kolmandat sammu enne, kui ei ole astutud esimene ja teine. Ka EMT kui strateegilise äripartneri loobumine osalusest EKTAKis oli üheks ebaõnnestumise põhjuseks.

Kogu TAKide programmi kontseptsioon näib olevat pisut utoopiline ja julgen prognoosida, et paremal juhul vaid üks finantseeritavatest arenduskeskustest on elujõuline pärast riikliku toetuse lõppemist. Riigis, kus teaduse finantseerimise tase on üks ELi madalamaid, ei ole võimalik edukalt arendada innovatsiooni ja teadmistepõhist majandust.

 

 

Kui sulle meeldis see postitus jaga seda oma sõpradega

[LoginRadius_Share]
 

Leia veel huvitavat lugemist

Värske Rõhk
Hea laps
LR
Keel ja kirjandus
Akadeemia
Kunstel
Muusika
Õpetajate leht
Täheke
TeaterMuusikaKino
Vikerkaar
Looming