Tehisintellektitehnoloogia eesti keele rakkes
Närvivõrkudel põhineva masintõlkega seoses on jälle õhus lootus, et masin oma tõlke pärast rõõmu või häbi tunneks.
Keel võib digiajastul osutuda suhtlemisel märkimisväärseks takistuseks. Kuna internet on üha mitmekeelsem (üle 70% sisust on mõnes muus, mitte inglise keeles1), võib meid varitseda keelelise killustumise oht: inimesed suhtlevad veebis pigem nendega, kes räägivad sama keelt.
Eriti suur katsumus on keelebarjäär Eesti-sugustele väikeriikidele, sest vaid väga vähesed väljastpoolt Eestit saavad eesti keeles kirjutatust aru. See aga tähendab, et paljud jäävad Eestiga seotud olulistest uudistest ja teabest ilma ning ka meie digiteenuste kasutamine on neile keeruline. Selle katsumusega seisame eriti teravalt silmitsi praegu, 2017. aastal, mil Eesti on Euroopa Liidu Nõukogu eesistuja rollis.
Keelebarjääriga kaasnevate probleemide leevendamiseks töötas keeletehnoloogiaettevõte Tilde välja tehisintellektitehnoloogiale toetuva tõlkelahenduse, maailma esimese närvivõrkudel põhineva masintõlkemootori eesti keele tarvis.
Masin jäljendab inimese intellekti
Närvivõrkudel põhinev masintõlge on tõlketehnoloogias uus lahendus. Suvel 2016 avaldati2 üks esimesi teateid närvivõrkudel põhinevast masintõlkest ning uued süsteemid ületasid uudiste tõlkimises tõlkekvaliteedilt seni troonil püsinud statistilisi süsteeme WMT2016-l, masintõlgete olümpial. Siis veel ei teatud, et ka Google ehitab oma närvivõrkudel tõlkesüsteeme. Google teavitas üldsust oma edust septembris 2016.3 Sündinud oli masintõlke kolmas põlvkond. Põikena ajalukku: 1950ndatel arendati reeglitel ja sõnastikel baseeruvaid süsteeme, 1990ndatel statistilisi tohututest kakskeelsetest rööpkorpustest õppivad süsteeme.
Kuna uue põlvkonna süsteemide arhitektuuri aluseks on tehisintellektitehnoloogia, on nii saadud masintõlge ladusam ja stiililt inimtõlkega sarnane. See aga on suur samm automaattõlke kvaliteedi parandamise suunas ning avab digimaailmas keelebarjääride ületamiseks uusi võimalusi.
Närvivõrkudel põhinevad masintõlkesüsteemid võtavad arvesse eesti keelele iseloomulikke keerukaid elemente, nagu suhteliselt vaba sõnajärg, süntaks, sõltuvusseosed, morfosüntaktiline ühildumine jms, millega laialt kasutusel statistilised masintõlkemudelid4 (sh veebitõlketeenused Google Translate ja Bing Translator) nii hästi hakkama ei ole saanud. Siin on vaid üks konks: närvivõrgud võivad tõlkides nii hoogu minna, et tunnevad sihtkeele lause keskel end piisavalt hästi teadvat, mida lähtekeele autor (inimene või teine masin) mõelnud on, ning produtseerivad otsustavalt sihtkeele lause „loomuliku“ lõpuosa, pööramata vähimatki tähelepanu lähtekeelsele lauselõpule.
Eesistumine ei möödu, kott peas
Euroopa Liidu Nõukogu eesistumisega seoses korraldatud üritustel saab nüüd taustainfot eestikeelsetest allikatest. Tõlketööriista www.translate2017.eu närvivõrkudel põhinevaid masintõlkemootoreid saavad ELi saadikud, ajakirjanikud ja avaliku sektori tõlkijad, aga ka kõik muud huvilised kasutada mitmesuguste tekstide tõlkimiseks, alates pressiteadetest ja õigustekstidest kuni eestikeelsete veebisaitide ja uudisteportaalideni. Eriti võib tööriistast kasu olla Eestit külastavatel reporteritel, kes pääsevad nii juurde eestikeelsele teabele, et ette valmistada näiteks intervjuu kohalike poliitikutega või saada ülevaade päevauudistest.
Loomulikult poleks eesti ja inglise keele vahelisi närvivõrkudel põhinevaid masintõlkesüsteeme saanud välja töötada ilma eesti keele asjatundjate abita (teame, et eesti keel on üks Euroopa keerulisemaid). Närvivõrkudel põhinevad masintõlkemootorid ja tõlketööriista kasutajaliidese töötasid välja Tilde keeletehnoloogiaeksperdid Eesti keeletehnoloogia programmi5 raames ja haridus- ja teadusministeeriumi toel.
Tilde masintõlketöörühm on juba mõnda aega närvivõrkudel põhineva masintõlke eestvedaja olnud. Septembri alguses võideti oma masintõlkemootoritega esikoht Kopenhaageni mainekal rahvusvahelisel üritusel WMT2017,6 kus võistlesid maailma suurimad masintõlkepakkujad, keeleteadlased ja ülemaailmsed tehnoloogiaettevõtted. Edu uudiste tõlkel tagasid nutikas andmetöötlus, meetodid isiku ja organisatsioonide nimede tuvastamisel, liitsõnade ja morfoloogiliselt keerukate vormide töötlus – kõik see, mis eesti keeles masinatele peavalu valmistab.
Kuhu edasi?
Euroopa Liidu Nõukogu eesistumise tarbeks loodud tõlketööriist on Eestis kasutajatele kättesaadav kogu 2017. aasta eesistumise perioodi vältel. 2018. aasta jaanuaris kohandatakse tööriista nii, et selle saaks kasutusele võtta nõukogu järgmine eesistuja Bulgaaria.
Muidugi ei ole keelemure veel lõplikult lahendatud. Kaugel sellest. Kuid nüüd on meil olemas tööriistad, et üksteist senisest paremini mõista, saada aru teises keeles esitatud teabest.
1 http://www.unesco.org/fileadmin/MULTIMEDIA/HQ/CI/CI/pdf/netlang_EN_pdfedition.pdf (Daniel Prado, lk 39.)
2 9. juunil ArXivil ja 11. augustil 2016 WMT-l. R. Sennrich, B. Haddow, A. Birch. Edinburgh Neural Machine Translation Systems for WMT 16. In Proceedings of the First Conference on Machine Translation (WMT 2016), Volume 2: Shared Task Papers. 2016. http://www.statmt.org/wmt16/pdf/W16-2323.pdf.1
3 Bridging the Gap between Human and Machine Translation. 26. IX 2016.
4 http://www.sirp.ee/s1-artiklid/varia/2014-06-05-17-01-26/, http://keeljakirjandus.eki.ee/726-738.pdf
5 www.keeletehnoloogia.ee
6 https://tilde.com/news/tildes-neural-mt-systems-win-first-place-world-mt-olympics