Miks masin tõlkija? Poiss ei tea grammatika

Tiina Altküla, Margit Kurm, Tiina Köömnemägi, Martin Luts, Tilde Eesti Pealkirjas ei ole tegu toimetaja tegemata tööga. Tõlkisime masina abil pealkirja „Miks masin ei tõlgi? Poiss ei oska grammatikat” inglise keelde „Why does a machine translation? The boy does not know grammar” – ja siis tagasi eesti keelde. Sõnad on justkui samad, mõte (kadunud on eitus küsilauses) ja grammatika (pole käändelõppe) aga väändunud. Miks siis „poiss” ei tõlgi nagu inimtõlkija? Võib öelda, et tegu on masina haridustee lünkadega: poisi treener, s.t rakenduslingvist, sisestas möödunud sajandi viiekümnendatel masinasse kakskeelsete sõnaraamatute tekste ja grammatikareegleid. Sõnad on aga mitmeti mõistetavad ning grammatikareeglitel on erandid ja erandite erandid. Poiss ei saanud ülesandega hakkama (USA luureteenistus ei suutnud venelaste tekste mõistetavalt masintõlkida), treener lasti lahti1 ja järgnes nn masintõlketalv. Rahakraanid keerati kinni. Arvutite võimsus ja kiirus aga kasvas ning masintõlkele sai läheneda „jõumeetodil”: mahuka treeningmaterjali ja statistiliste meetoditega hakati miljonite inimtõlgitud näidete varal masinale õpetama, kuidas ühe keele tekstilõike asendada teise keele kõige tõenäolisemate vastetega.

Setu-prantsuse masintõlke loomiseks pole praegu vaja kumbagi keelt osata. Masintõlkeprogrammi treenimiseks piisab universaalsest keelteülesest masintõlkemootorist ja treeningmaterjalist – hulgast asjakohaste keelte rööptekstidest. Milline on paras hulk? Olenevalt keelte keerukusest (nt muutevormide rohkusest jm parameetritest) on treenimiseks vaja sadu miljoneid sõnu. Sääraste süsteemide loomisest on kirjutanud Keeles ja Kirjanduses ladusalt Heiki-Jaan Kaalep ja Mare Koit.2
Eesti-inglise keelepaari jaoks on kogutud saja miljoni sõnaga rööpkorpus. Paraku on see tasakaalust väljas: enamasti seadusandlikud tekstid, organisatsioonide materjalid, tehnilised dokumendid, igapäevakeelt, kirjandust jms on näpuotsaga. Puudu on just see osa keelest, mida on vaja argikasutajal. Tuleks teha üldrahvalikud „Teeme ära!” stiilis talgud ning koguda kõikvõimalikke eesti- ja muukeelseid rööptekste, sest inimtõlgitud tekst on tänuväärt materjal masintõlke edendamiseks.
Seda, et on võimalik välja töötada Google Translate’i eesti-inglise-eesti masintõlke taset ületavaid süsteeme, näitavad Eesti keeletehnoloogia programmi projektid.3
Sel aastal täiendatakse eespool kirjeldatud statistilist meetodit eesti keele morfoloogiatarkvara ning järgmise kolme aasta jooksul teistegi keeletööriistadega. Hübriidmasintõlkesüsteem peaks märgatavalt parandama eestikeelse masintõlke kvaliteeti, mis on praeguses META-NETi valges raamatus „Eesti keel digiajastul” hinnatud kehvaks või olematuks.4
Google Translate või mõni muu üldkeelele keskendatud ja Interneti tekstidega treenitud masintõlketööriist ei anna valdkonna dokumentide tõlkimisel rahuldavat tulemust. Seega tuleb süsteemi treenida valdkondlike rööptekstidega, et õpetada talle ettevõtte- või alaspetsiifilist sõnavara. Suured tõlkevahendus- ja ka tootjafirmad (nt auto- või tarkvaratootjad), kes tegutsevad rahvusvahelisel turul ning kelle kätte on koondunud tõlketööd ning tõlkemälud ja terminibaasid, säästavad juba praegu valdkondliku masintõlkega raha ning kiirendavad oma kauba tarbijateni jõudmist.
Professionaalne masintõlgete järeltoimetamine (postediting) võib tõhusalt kiirendada tarbetekstide tõlkimist ja seega edendada kommunikatsiooni. Järeltoimetamine eeldab harjutamist ja masintõlkimise „lastehaiguse” läbipõdemist, s.t oskust ennast masinlikust tekstist piisavalt distantseerida. Masintõlgete kaudu võib eesti keelde imbuda lähtekeelepärane lauseehitus ja kirjavahemärgistus, seetõttu mängib suurt rolli masintõlketööriista kasutaja asjatundlikkus ning eesti keele oskus. Mida vilunum kasutaja, seda terasemalt märkab ta võõrapäraseid keelekonstruktsioone, oskab puude taga näha metsa, noppida konarlikust sõnastusest välja õige sisu ja loodetavasti „tõlkida” masina väljastatud teksti suupärasesse eesti keelde.

1 http://www.nap.edu/openbook.php?record_id=9547.

2 „Kuidas masin tõlgib“, keeljakirjandus.eki.ee/726-738.pdf.

3 http://tilde.ee/vordlev-hindamine-naitab-et-tilde-letsmt-toimib-paremini-kui-google-translate.

4 http://www.meta-net.eu/whitepapers/volumes/estonian, lk 63, joonis 9.

Kui sulle meeldis see postitus jaga seda oma sõpradega

[LoginRadius_Share]

Leia veel huvitavat lugemist

Värske Rõhk
Hea laps
LR
Keel ja kirjandus
Akadeemia
Kunstel
Muusika
Õpetajate leht
Täheke
TeaterMuusikaKino
Vikerkaar
Looming