11.03.2016

Milline on hea masintõlge?

Hea tasemega masintõlke väljundi korral läheb tõlketöö järeltoimetamise korras kiiremini kui nullist tõlkimisel.

MARK FIŠEL, Tartu ülikooli arvutiteaduse instituudi keeletehnoloogia dotsent

Enamik meist on kuulnud statistilise masintõlke teenuse Google Translate¹ naljakatest tõlkenäidetest: ingliskeelne „iPhone case“ tõlgitakse eestikeelseks väljendiks „iPhone puhul“ ja „German course“ „Saksa muidugi“. Eestikeelse „sest tuisku ega tormi ei karda eesti rind“ tõlge sai küll parandatud pärast internetis tõusnud ažiotaaži paar aastat tagasi, kuid näiteks „ei karda soome/vene/saksa rind“ tõlgitakse ikka valesti.

Naljakustele vaatamata on viimastel aastatel statistiline masintõlge saanud laialt kättesaadavaks: juurde on tekkinud teenused nagu Microsofti Bing Translator² või Tilde tõlketööriist.³ Peale veebiteenuste kasutatakse masintõlget aktiivselt ettevõtetes (näiteks rahvusvahelises firmas Autodesk⁴) ja Euroopa Liidus rahastatakse mitmeid masintõlke projekte, võtkem või QT21 ja SUMAT.⁵

Mis kasu on masintõlkest?

Kuigi masintõlke väljund võib olla vigane (eesti keele puhul pahatihti ongi), siis teksti mõte on enamasti arusaadav – igatahes lugejale paremini mõistetav kui tundmatus keeles kirjutatud lähtetekst. Seega on masintõlke veebiteenuste peamine eesmärk tagada arusaamine veebilehe või e-kirja sisust üldjoontes.

Vaatame nüüd teistsugust näidet: ingliskeelse „do not buy their products“ eestikeelne automaattõlge võib olla näiteks „ostke nende toodangut“. Tõlke sisu on lähtelause omaga vastupidine, kuid selle käsitsi parandamisel on lause algusse vaja lisada vaid sõna „ärge“.

Käsitsi parandamine, mida nimetatakse järeltoimetamiseks, ongi praegu kõige levinum masintõlke rakendusviis ärimaailmas. Piiratud sõnavara ja vähese varieeruvusega tekstivaldkonna puhul ning piisavalt hea tasemega masintõlke väljundi korral läheb tõlketöö järeltoimetamise korras kiiremini kui nullist tõlkimisel. Tõlkeprotsessi kiirendamine aga tähendab efektiivsuse tõusu ja tulu, mistõttu on masintõlge ettevõtete ja asutuste juhtiva personali vaatepunktist atraktiivne.

See muidugi ei tähenda, et inimestele meeldiks parandada masina tehtud vigu. Kindlasti ei tohi tõlkimise puhul arvestada ainult ajakuluga ega inimesi tuimalt vaid järeltoimetama panna, kuna see võib kasvatada stressi ja tuua kaasa väärtuslike spetsialistide läbipõlemise. Tegemist on siiski kahe täiesti erineva tööprotsessiga.

Masintõlge ei saa kunagi asendada inimese tõlget. Seda tuleb võtta tööriistana, mis võib vähendada inimtõlkija töörutiini. Masintõlke väljundi kvaliteet küll kõigub lauseti, kuid hinnata on võimalik ka tõlkeväljundi usaldusväärsust, sõeluda välja halvimad tõlked, et inimene ei peaks nende peale oma aega ja närve kulutama. Automaattõlke abiga saab ära teha igavama osa tõlketööst ning jätta loomingulisema osa inimesele.

Miks on masintõlkes vigu?

Statistilise masintõlke korral õpib süsteem ise tõlkima, ilma et keeleteadlane või programmeerija seda eraldi selgitama peaks. Ainus ressurss, mida selleks tarvis läheb, on suur hulk tõlkenäiteid soovitud tekstivaldkonnast. Masinõppe printsiibil automaatselt õpitud mudeli najal tõlgitakse uusi lauseid, mida tõlkenäidete hulgas ei ole. Seda ei tehta sugugi mitte sõnade kaupa „sõnastiku“ toel, vaid taaskasutades terveid fraase ja osalauseid, mis võimaldab ka idioomide ja püsiväljendite haldamist.

Vead inglise või ka prantsuse keelde masintõlkimisel tulenevad peamiselt sellest, et masinõpe tähendab umbkaudset probleemilahendust. Õpitud mudelite üldistusvõime tagamiseks peab osa sisendinfost (nt fraaside ja osalausete kaugkontekstiline sõltuvus) ignoreerima või modelleerima selle nõrgemate seoste kaudu. See viib aga selliste tõlgeteni nagu „iPhone puhul“: kui fraas on tundmatu, siis tõlgitakse see osade kaupa, ingliskeelne „case“ esineb aga rohkem fraasina „in case“, millest tulenebki vale tõlge „puhul“.

Kui tegu on eestikeelse sisendi või väljundiga, tekib lisaprobleem. Näiteks statistiline masintõlge põhineb eeldusel, et sõnad võib ära õppida selles vormis, nagu need tekstis esinevad, ning et tähenduslikult seotud sõnad esinevad kõrvuti või ei jää lauses üksteisest kaugele. Inglise või prantsuse keele puhul see umbkaudselt kehtibki ning tagab tugeva mudeli, eesti keele puhul aga ei kehti. Nimelt on eestikeelse sisendi ja/või väljundi puhul peamine probleem eesti käändelõppude ja muu morfoloogilise info rikkus ning suhteliselt paindlik ja varieeruv sõnajärg, mis erineb inglise keele omast kohati tugevasti.

Kuidas masintõlkesüsteemi parandada?

Mida teha, kui mudeli aluseks olnud eeldused ei kehti? Tuleb kas luua uus mudel või muuta andmeid, et need oleksid mudelile arusaadavamad. Uute mudelite arendamine nõuab teoreetilisi uuringuid ja katseid, mida Tartu ülikoolis masintõlke vallas ka tehakse.⁶ Praktiliste masintõlkesüsteemide loomisel aga kasutatakse pigem teist lähenemist ehk andmete muutmist, et kohendada juba olemas masintõlke baasfunktsionaalsus uuele keelele või keelepaarile. Kirjeldan seda ühe lihtsa näite abil.

Võtame eestikeelse lause „palun pane see suur roheline uks kinni“, mille ühendverb „kinni panema“ vastab inglise keeles ühele tegusõnale „close“. Lauses paiknevad selle ühendverbi osad lahus, mistõttu on tõenäolisem, et eestikeelne „pane“ tõlgitakse sõnaks „put“ ilma ühendverbi konteksti arvestamata.

Üks levinud viis olukord lahendada on eeltöötlus: sisendi sõnad paigutatakse enne tõlkemudelite õpetamist või rakendamist ümber väljundiga sarnasemasse järjekorda. Nii saadakse lause „palun kinni pane see suur roheline uks“, mis ei ole küll korrektne eestikeelne lause, kuid selle sõnade ja fraaside järjekord on ingliskeelse tõlkega palju sarnasem ning võimaldab masintõlke baasfunktsionaalsusel eestikeelse sisendiga paremini hakkama saada.

Samalaadsel viisil saab muu hulgas hakkama ka käändelõppude haldamise ja genereerimisega. Seega sisaldab eduka masintõlke süsteemi loomine mitut sammu, millest ainult esimene ehk baassüsteemi loomine on peaaegu täiesti automaatne. Seejärel tuleb teha tõlkevigade analüüsi ja kasutajate tagasiside alusel automaattõlke protsessi muudatused, et leitud vigu leevendada. Need kaks viimast sammu nõuavad inimese tööd ja asjatundlikkust nii inimtõlkimise kui ka masintõlke valdkonnas. Iga järgmise iteratsiooniga parandatakse masintõlke süsteemi kvaliteeti.

Selle protsessi tulemuseks on hoopis teistsugust sorti tõlkesüsteem kui Google’i või Microsofti oma. Kui nende puhul on tegu laia rakendusalaga süsteemiga, mille peamine eesmärk on genereerida üldiselt arusaadav väljund, siis siin on tegu spetsiifilise tõlkesüsteemiga ühe keelepaari ja tekstivaldkonna jaoks. Konkreetse ülesande korral ei ole raske saavutada paremat taset kui üldvaldkonna süsteemide oma ning tagada tõlkeprotsessi efektiivsuse tõusu.

Kuidas saada endale masintõlkesüsteem?

Töö käib Eestis Tartu ülikoolis. 2015. aastal käivitati Eesti keeletehnoloogia riikliku programmi projekt „Kama – kasutatav eesti masintõlge“, mille eesmärk on kohendada masintõlke baasfunktsionaalsus eesti keelele, aga käivitada ka koostööprojektid Eesti ettevõtete ja asutustega, selleks et arendada neile oma spetsiifiline tõlkesüsteem.

Esimene selline koostööprojekt käivitati veebruari keskel. Koostööpartneriks on tõlkebüroo Grata OÜ ning ülesanne on tõlkida tehnilise valdkonna tekstid saksa ja inglise keelest eesti keelde. Töösse on ka kaasatud Tartu ülikooli tudengid, kes saavad selle projekti käigus keeletehnoloogia alal peale teoreetiliste teadmiste ka praktilise kogemuse.

Suurt huvi masintõlke lahenduste vastu on näha ka teiste asutuste seas. Selline koostöö motiveerib masintõlke arendamist ja tagab selle eesti keelele rakendatavuse paranemise. Seega loodan, et koostööprojekte tuleb varsti juurde.

1 http://translate.google.com

2 http://www.bing.com/translator/

3 http://tilde.ee/

4 http://langtech.autodesk.com/productivity.html

5 http://www.sumat-project.eu/, http://www.qt21.eu/

6 Nt Eesti teadusagentuuri PUT1226 projekt „Statistiline masintõlge varjatud struktuuri ja kontekstiga“.