Keele mõõtmed keeletehnoloogias
Keele mõõtmed keeletehnoloogias on laienenud seninägematutesse suundadesse. Püüdsin aimu saada keeletehnoloogia ja keeleandmestike tänastest haarmetest 11. rakenduslingvistika kevadkonverentsil „Keele mõõtmed” 26. aprillil Tallinnas ja terve nädala kestnud keeleressursside evalveerimise ühingu ELRA korralisel konverentsil maikuus İstanbulis. Korpuslingvistika algusaegadest pärit lööklauset „Pole olemas liiga suurt korpust!” on võetud tõsiselt ning praegu kasutatakse keeletehnoloogias ära kõiksugu keeleandmed, mida veebis või mujal digitaalsel kujul leida. Suurelt hulgalt keelematerjalilt, teksti- ja kõnekorpustelt, oodatakse spontaansust ja loomulikkust, et arendada nende põhjal loomuliku keele äratundmist ja genereerimist võimaldavaid keelemudeleid. Sellise andmemahu läbitöötamine on võimalik vaid masinate abil, kuid oskuslikult andmeanalüüsi keerulisemaid meetodeid kasutades võivad uurimistulemused omakorda muuta meie ettekujutust sellest, milline eesti keel tegelikult on või kuidas kasutajad eesti keelt kasutada suvatsevad. Ilma spontaanse ja pidevalt kasvava kõnekorpuseta poleks näiteks sündinud ei keeleteo auhinda võitnud kõnetuvastuse rakendusi ega saaks me aimu, milles seisneb tegelikult venelaste kõneldava eesti keele aktsent. Inspireerivat ja mitmekesist andmestikku tegeliku keelekasutuse kohta pakuvad ka mahukad valdkonnaspetsialistide pideva igapäevase panusega täienevad tekstikorpused nagu digitaalse terviseloo diagnoosikirjeldused või kiiret ning täpset tegutsemist toetavad päästeameti kõnede stenogrammid. Mõlemad viimati nimetatud spetsiifilised keeleandmestikud on sisendiks tööd hõlbustavatele valdkondlikele infosüsteemidele, mille arendamine on praegu suurema keeletehnoloogilise turuga keelte puhul kuum teema. Inimeste (ja mitte ainult valitud seltskonna lingvistide või keeletehnoloogide!) korrastatud keelematerjal nagu leksikonid, teadmusbaasid, vikid, süntaksipuud või nime- ja koharegistrid jms andmestik pole suurepärane keelevaramu mitte ainult inimkasutajatele, ka infosüsteemid suudavad juba neist teadmisi ammutada. Selleks on eelkõige vaja ühtlustada ja panna koos toimima eri andmestruktuuride meta-andmestik. Eesti keeletehnoloogid astuvad meta-andmestiku korrastamise ja keeleandmestike ristkasutamise osas Euroopaga ühte sammu, osaledes ELi algatustes nagu CLARIN ja Metanet (Meta-Nordi projekti kaudu).
Üha rohkem räägitakse keeletehnoloogia konverentsidel nii piiri taga kui ka Eestis sellest, mida suudavad inimesed vabatahtliku osalusega ära teha veebis esitatud andmete täiendamisel või parandamisel. Kõneks on crowdsourcing, eesti keeles levinumaks vasteks rahvahange. Nii Eestis kui Soomes on sel moel näiteks transkribeeritud käsikirjalisi tekste või parandatud vanemate kirjatähtede tärktuvastust. Omamoodi rahvahange on ka asjatundlikult koostatud küsimustike põhjal saadud info ühe või teise rakenduse kasutusmugavuse parandamiseks või laiendamiseks. Üks suuremaid rahvahanke teel korjatud teadmiste kogumeid ülepea on aga Vikipeedia. Keeletehnolooge huvitab see varamu ühest küljest oma kindla struktuuriga artiklite pärast, mida peaks olema teoreetiliselt hõlbus automaatselt genereerida, aga ka Vikipeedia olemusliku ristviitamise tõttu, mis annab võimaluse luua automaatseid seoseid mitte ainult ühes keeles väljendatud sõnade vaid ka eri keelte vahel.