Üle 65 500 eesti mõistega arvutisõnastik

Sirli Parm, Heili Orav

Mõisteline sõnaraamat tõusis keeletehnoloogide huviorbiiti seepärast, et arvutisüsteemid tuli õpetada mõistma loomuliku keele mõisteseoseid.Keele püsimajäämine sõltub küll eelkõige kõnelejate hulgast, kuid tänapäeva infotehnoloogilises maailmas on selle kõrvale oluliseks teguriks tõusnud ka keeletehnoloogilised rakendused ja ressursid. Eesti keele arengukava sedastab, et eesti keel kuulub 50 kõrgelt arendatud keeletehnoloogiaga keele hulka maailmas.1

Üks eesti keeleressursse paljude teiste hulgas on Eesti Wordnet, kust leiab praegu üle 65500 mõiste (sh üle 80000 sõna). Selle eelkäijaks võib pidada Andrus Saareste „Eesti keele mõistelist sõnaraamatut” (välja antud Stockholmis pagulusaastatel 1958–1963), teisi mõistetel põhinevaid sõnaraamatuid eesti keele kohta pole. Erinevalt Saareste sõnaraamatust on Eesti Wordnet vaid elektrooniline (http://www.cl.ut.ee/ressursid/teksaurus/, vt Keele ja Kirjanduse artikkel).2 Uuema põlvkonna mõistelises arvutisõnastikus on peale sõnade tähenduse fikseeritud ka tähendustevahelised seosed (sünonüümid, antonüümid, ülem- ja alammõisted, osa ja terviku suhted (käigukang on auto osa), põhjussuhted (tapmine põhjustab surma), osalussuhted (kooli osalised on õpilased ja õpetajad jne).

Mentaalne leksikon

Algidee oli luua sõnavõrgustiku tüüpi mentaalne leksikon ehk mudel, kuidas sõnad meie peas asetuvad ja kuidas need on omavahel seotud (vt ka Kilgarriff).3 Mentaalset leksikoni võiks mõista kui ulatuslikku, kuid piiratud teadmuse peegeldust keele mõistete kaudu. Sellise mudeli loomist alustasid psühholingvistid Princetoni ülikoolis professor George Milleri juhtimisel 1980ndatel ja see oli mõeldud psühholoogidele ja keeleteadlastele, kuid praeguseks on wordnet ennekõike keeletehnoloogiline ressurss. Seda kasutatakse kui inforikast elektroonilist leksikaal-semantilist andmebaasi, aga ka kui abivahendit sõnatähenduste ühestamisel (sõnale määratakse teatud kontekstis kindel tähendus, nt (pani) ajama kiirustamise tähenduses ning (juttu) ajama rääkimise tähenduses), info-otsisüsteemide osana (kui otsida roomajat, saame ka tema allmõisted püütoni, varaani, mamba jm), keeleõppeprogrammides jne. Samuti on see oluline keeleteaduses, kui uuritakse keele leksikaalset struktuuri. Suur osa keelte wordnet’idest on omavahel ka ühendatud, s.t on võimalik teada saada, kas keeles esineb see mõiste, ning võrrelda mõistete seoseid teiste mõistetega. Näiteks eesti keeles on mõistel leib 14 alammõistet (peenleib, rukkileib, kuivikleib, aga ka armulaualeib, pruudileib jne), kuid taanikeelsel mõistel brød on suisa 34 alammõistet.

Mõistelise sõnaraamatu tõusmist keeletehnoloogide huviorbiiti saab seletada kahe asjaoluga. Esiteks tekkis vajadus „selgitada” arvutisüsteemidele loomuliku keele mõisteseoseid, s.t arvuti peaks keeleandmete põhjal oskama ka järeldusi teha (mets koosneb puudest, pahtel on teatud ehitusmaterjal jne), ja wordnet kui arvutiressurss lubab oma seostega just seda laadi info kätte saada. Teine põhjus on pragmaatiline: Princetonis loodud WordNeti (inglise keele kohta) on saanud vabalt kasutada selle loomise algusest peale.

Wordnet’i tüüpi leksikaal-semantilisi andmebaase on loodud üle 60 keeles (mõne keele kohta mitu, nt vene keele) ja neid tuleb juurde. Seda tööd koondab Global WordNet Association, mille moodustab rahvusvaheline keeletehnoloogide, informaatikute ja lingvistide võrgustik. Luuakse üha uusi keelte mõistelisi arvutisõnastikke ja kasvab wordnet’iga seotud spetsialistide arv. Pidevalt täieneva arvutiressursi koostamispõhimõtted on küll paljus sarnased, kuid ka iga maa keelespetsiifilised. Näiteks India, Aasia ja Aafrika wordnet’id hõlmavad juba mitme keele n-ö all-wordnet’e. Wordnet’i laienemisest ja jätkuvast vajadusest mõisteliste arvutisõnastike järele keeletehnoloogilises maailmas annab tõestust 2002. aastast iga kahe aasta järel korraldatav kokkusaamine ehk ülemaailmne wordnet’i konverents (GWC – Global Wordnet Conference).

Sel aastal peeti 25. – 29. jaanuarini seitsmes rahvusvaheline keeletehnoloogia konverents Eestis Tartu ülikoolis. Varem on konverents korraldatud Indias (2002, 2010), Tšehhis (2004), Koreas (2006), Ungaris (2008) ja Jaapanis (2012). Konverentsi teemad keerlesid üldiselt eri keelte arvutisõnastike ümber: ettekanne peeti ligi 30 keele wordnet’idest, nende hulgas kurdi, portugali, prantsuse, saksa, inglise, bulgaaria, ungari, serbia, amhara ehk amhari, sotho, assami, vene, rootsi, horvaadi, rumeenia, hiina, itaalia, poola, sanskriti ja jaapani keele kohta. Räägiti keelte erisustest, aga ka vahenditest, kuidas keeleandmete õigsust kontrollida. Hulganisti oli ettekandeid mitmesugustest keeletehnoloogilistest tööriistadest, mis kasutavad wordnet’ide andmebaase.

Rakendusprogrammid

Praegu on üheks populaarsemaks rakenduseks sõnatähenduste automaatne kindlakstegemine tekstis. Näiteks peab arvutiprogramm aru saama, et sõna pank tähendab mõnes kontekstis finantsasutust ja teises kallast. Sõnatähenduste automaatse ühestamisega haakuval teemal pidas konverentsi kutsutud esineja, Pisa ülikooli professor Alessandro Lenci ettekande „Kas distributiivne semantika saab kunagi osaks semantikast” („Will Distributional Semantics Ever Become Semantic?”). Ta ühendas oma ettekandes teoreetilise keeleteaduse ja rakendusliku iseloomuga keeletehnoloogia, keskendudes eeskätt distributiivse semantikaga lahendatavatele polüseemia ja järelduste (ingl inference) probleemidele. Distributiivne semantika on arvutilingvistikas leksikaalse semantika tööriist, mille abil saab konstrueerida tähenduskirjeldusi sõnade esinemuse põhjal ulatuslikes tekstikorpustes.4 Seitsmenda ülemaailmse wordnet’i konverentsi eesmärk oli välja selgitada, mis suunas liiguvad maailma uurijad keeletehnoloogiliste rakenduste loomisel, kaardistada positsioonid, kus asuvad teistega võrreldes Eesti keeletehnoloogid, ning vahetada uurimistulemusi ja kogemusi. Selles valguses võib vaid nentida, et konverents oli igati edukas ja Eesti Wordneti arendamine on jätkusuutlik.

1 http://ekn.hm.ee/eesti-keele-arengukava-2011–2017.

2 Heili Orav, Kadri Kerner, Sirli Parm, Eesti Wordneti hetkeseisust. – Keel ja Kirjandus 2011, nr 2, 96–106.

3 Adam Kilgarriff, WordNet: an electronic lexical database: Review. – Language 2000, nr 76 (3),
lk 706–708.

4 Professor Lenci loeng on järelvaadatav http://www.uttv.ee/.


Kui sulle meeldis see postitus jaga seda oma sõpradega

[LoginRadius_Share]
 

Leia veel huvitavat lugemist

Värske Rõhk
Hea laps
LR
Keel ja kirjandus
Akadeemia
Kunstel
Muusika
Õpetajate leht
Täheke
TeaterMuusikaKino
Vikerkaar
Looming