Euroopa keelte eluvõimalus digiilmas

Kadri Vider: „Mis tahes inimkeele elujõud peitub ikkagi ainult tema kasutajates.“

AILI KÜNSTLER

Igasuguse keeletöö alus on keeleressursid. Eesti Keeleressursside Keskuse toimimisskeem.

Igasuguse keeletöö alus on keeleressursid. Eesti Keeleressursside Keskuse toimimisskeem.

Vastu peatset emakeelepäeva 14. märtsil tuleb möönda, et ühe miljoni kõnelejaga keele ellujäämiseks infotehnoloogilises maailmas on keeletehnoloogia ilmselt võtmetähtsusega küsimus.

Praegu tegutsetakse riikliku teadus- ja arendustegevuse programmi „Eesti keele tehnoloogiline tugi (2006–2010)“ (EKKTT) jätkuprogrammi „Eesti keeletehnoloogia 2011–2017“ (EKT)1 raames. Pealkirja sõnastust on muudetud. Kas muutunud on ka sisu või rõhuasetus?

Kadri Vider, Eesti Keeleressursside Keskuse tegevjuht: Eks ikka. Mõlema programmi peamine eesmärk on küll viia eesti keele keeletehnoloogiline tugi tasemele, mis võimaldab eesti keelel edukalt toimida tänapäeva infotehnoloogilises maailmas, kuid see digimaailm ise on pidevas muutumises ja seitsme aasta pärast saavutatavat taset on uut programmi käivitades üpris raske ette ennustada. Loogiline on oodata aga praeguse programmi tulemustelt suuremat rakendatavust ja vahetult keelekasutajale suunatud tarkvara või IT-lahendusi. Rõhuasetus on endiselt sellel, et riigi raha eest teadlaste loodu oleks kõigile tasuta kättesaadav. Kasutuspiirangud võivad tekkida keelelise allikmaterjaliga seotud autoriõiguste või isikuandmete kaitse tõttu, kuid projekti tulemuste kasutamise eest kelleltki raha küsida ei või. Nii hoolitseb riik omalt poolt ka eesti keele keeletehnoloogilise toe arendamise eest väljaspool teadus- ja arendustegevuse programmi. Infotehnoloogiliste lahenduste loojad saavad toodetes omakorda ära kasutada selle keeletehnoloogilise komponendi, mille teadlased on eesti keele kohta juba läbi uurinud ja läbi katsetanud.

Milline EKT teadus- ja arendusprojektidest on eesti keele elujõulisuse seisukohast kõige olulisem?

Mis tahes inimkeele elujõud peitub ikkagi ainult tema kasutajates. Sellest filosoofilisest vaatepunktist lähtudes võiksid olulisemad olla eesti keele digitoe sisend ja väljund ehk kõne või teksti analüüs ja süntees (genereerimine). Kõnesünteesi on lihtsam teha kui kõnetuvastust ja digiraamatuid või subtiitreid loevad EKI ja TTÜ küberneetika instituudi arendatud süsteemid täitsa lobedalt ette. Kõnetuvastuse tulemus2 sõltub seevastu palju näiteks salvestuse või mikrofoni kvaliteedist, mürast, pealerääkimisest jne. Kontrollitud, valdkondliku sõnavara (nt radioloogia) kasutamisel töötab eesti keele kõnetuvastus juba praegu edukalt. Ka ajakirjaniku tööd hõlbustaks diktofon, mis keeletehnoloogia abiga kiiresti eestikeelsest kõnest arusaadava teksti teeks. Selles suunas on veel arendusruumi. Kuid tulemuse parandamisele saab igaüks kaasa aidata, kui kasutab küberneetika instituudis loodud veebipõhise kõnetuvastuse teenust.3

Teksti puhul on lihtsuse ja olulisusega vastupidi. Lihtsam on teksti analüüsida ja EKT programmi toel on vabavaraks4 saanud ka oluline baastarkvara ehk Filosofti eesti keele vormianalüüsi vahendid, mida kasutavad näiteks tekstitoimetid sõnavormide õigekirja kontrollimiseks (speller), aga vormituvastust ja lemmatiseerimist (ehk sõna algvormi leidmist) võiks kasutada ka palju rohkem kõikvõimalikes otsisüsteemides. Näiteks Riigi Teataja otsingust ei leia päringuga „load“ õigusakte, kus esinevad ainult sama sõna teised tüvevormid „luba“ ja „lube“, kuid kodanikule ja maksumaksjale võib selline otsitulemus tähendada suurt infokadu, mida annaks olemasolevate keeletehnoloogiliste vahenditega vältida.

Dialoogsüsteemid ja masintõlge on ka väga olulised, kuid keerulisemad probleemid, millega EKT projektides tegeldakse. Lisaks sisendi-väljundi analüüsile ja sünteesile vajatakse siin struktuursemat ja sügavamat tähenduse mõistmist ja uue tähenduse genereerimist.

Kuid ükski tulemustest poleks võimalik irdu, ilma teiste eelnenud või rööpselt kulgevate keeletehnoloogia projektide tulemusteta. Tuleviku seisukohalt teeb veidi murelikuks teadlaste ja praktikute napp juurdekasv kõigis olulistes keeletehnoloogia suundades. Spetsialiseeritud õpet pakutakse meil Eestis vaid Tartu ülikoolis, kus keeletehnoloogia õppekava on äsja juhtima asunud noor ja aktiivne Mark Fišel ja võib loota, et saame särasilmseid tudengeid juurde.

Keeleline mitmekesisus on üks Euroopa Liidu ideoloogilisi nurgakive, kuigi siiani on keelebarjäär ületatud sageli vaid inglise keele kargu toel. Interneti- ja digiteenuste kõigekülgseks kasutamiseks, riigiasutuste e-teenustele juurdepääsuks jms tahetakse liikuda Euroopa Komisjoni eestvedamisel ühtse mitmekeelse digitaalse turu – paremini lõimitud mitmekeelse Euroopa suunas. Milliste vahenditega ja kui paljude keelte tarvis see saavutada tahetakse?

Kõigile Euroopa Liidu keeltele on oluline digimaailmas ellu jääda ja liidule endale on oluline, et kodanikud saaksid ühistest hüvedest võrdselt osa emakeelest sõltumata. Keelte tehnoloogilise toe ja masintõlke arendamine on selleks möödapääsmatu.

Euroopa Komisjon on algatanud Euroopa ühendamise rahastu (CEF) automaattõlkeplatvormi CEF.AT eesmärgiga lihtsustada mitmekeelset suhtlust ning dokumentide ja muu keelelise sisu vahetust Euroopa riikide haldusasutuste vahel ning haldusasutuste ja Euroopa Liidu elanike ja ettevõtete vahel. Tõlkesüsteemi ennast arendatakse keskselt, kuid tulemuse headus sõltub tegelikult süsteemi söödetavast rööptekstide hulgast ja kvaliteedist. Järelikult on vaja koguda liikmesriikides mitmekeelseid avaliku sektori tekste, terminibaase ja tõlkemälusid. Selleks ongi käivitatud Euroopa keeleressursside koordineerimise meede (ELRC).5

Milline koht on nende eesmärkide saavutamisel Eesti Keeleressursside Keskusel ehk EKRK-l?

Euroopa Liidu masintõlke algatust veab rohkem eest Baltimaade suurim keeletehnoloogiaettevõte Tilde, kes ongi keskendunud masintõlkesüsteemide arendamisele. Kuid Eestist avaliku sektori ressursside kogumisele ja info levitamisele aitab kaasa ka EKRK, sest CEF.AT huvid kattuvad omakorda paljuski meie tegevuse põhieesmärgiga: teha huvilistele kättesaadavaks eesti keele digitaalsed ressursid (sõnastikud, teksti- ja kõnekorpused, keeleandmebaasid) ja tehnoloogia (keeletarkvara).

Kas ei hakka ressurssides sagedamini esinevad keelelised üksused masintõlkimise korral ka keelt ennast muutma – üheülbastumise suunas? Automaatkorrektorgi suunab kasutama tavalisemaid sõnu. Punalaine ilmub ka täiesti võimalike, kuigi harvemini kasutuses sõnade alla (nt tõepoolest ei meeldi talle mitte) ja kahtluse korral võidakse värvikamast sõnapruugist loobuda.

Jah, kui tõlkesüsteemides on kasutusel masinõppe meetodid, mille puhul õpitakse olemasolevate ja üha kasvavate tekstimassiivide pealt, ja inimene ei suuna süsteemi vahepeal eristama häid ja rikastavaid tõlkeid halbadest ja üheülbalistest tõlgetest.

Viimases, eelmise aasta oktoobrikuus tutvustatud eesti keele arengukava seires on märgitud, et koolides on raske suunata lapsi õppetööväliselt eesti keelega tegelema, sest ilmneb „huvi vähesus eesti keele kui terviku probleemide vastu“. Kas ehk innustaks lapsi keeletehnoloogiline suhe oma emakeelega? Kas koolides tehakse midagi selles suunas?

Huvi on suhtumise küsimus. Ma ei oska ennustada, kuidas tehnoloogilised võimalused suhtumist muudavad, kuid õpetajad saavad kindlasti laste suhtumist mõjutada, ka tehnoloogiliste vahendite kaudu. Olen ise koolilastele või informaatikaõpetajatele keeletehnoloogia võlumaailma tutvustades küll ja küll särasilmi näinud. See annab lootust.

Keelemänge veebirakendustena on tegelikult päris palju, iseküsimus on see, kuivõrd vahetult saab nende abiga jõuda keeleõpetuse metoodiliste eesmärkideni ja tekitada huvi eesti keele kui terviku probleemide vastu. Alustuseks olen soovitanud mängida näiteks veebis sõnaseletusmängu.6 Mõnda aega lustimise järel oleme õppuritega arutelu käigus püüdnud vastata tegevuse käigus üles kerkinud küsimustele. Kas masin saab inimesest aru? Kuidas arvutile üldse keelt selgeks teha? Missugused on arvutile keerulisemad nähtused või konstruktsioonid eesti keeles? Kuidas teha arvuti ja inimese suhtlus eesti keeles loomulikumaks? Kuidas mõjutab dialoog arvutiga meie arusaamist suhtlusest üldse?

Venekeelse elanikkonna suure osakaaluga piirkondades arvatakse aga seire andmete kohaselt, et „eesti keele oskust ei ole vaja, sest eesti keele igapäevaseid kasutusvõimalusi on vähe“. Kas keeletehnoloogilised lahendused ja automaattõlke avarduvad võimalused ei kahanda mitte huvi seda väikest keelt õppida veelgi?

Ka siin ei oska ennustada, kuidas tehnoloogilised võimalused suhtumist muudavad – võib ju ka olla, et hoopis kasvatavad huvi keelt omandada?

1 https://www.keeletehnoloogia.ee/et

2 https://www.keeletehnoloogia.ee/et/ekt-projektid/konetuvastus/tarkvara

3 http://bark.phon.ioc.ee/webtrans/

4 https://www.keeletehnoloogia.ee/et/ekt-projektid/vabavaraline-morfoloogiatarkvara

5 http://lr-coordination.eu/

6 https://keeleressursid.ee/alias/

Kui sulle meeldis see postitus jaga seda oma sõpradega

[LoginRadius_Share]

Leia veel huvitavat lugemist

TeaterMuusikaKino
Keel ja kirjandus
LR
Täheke
Õpetajate leht
Akadeemia
Kunstel
Muusika
Vikerkaar