Tehisarule on prille vaja, Eesti prille

Aasta algusest saati on palju juttu tehtud suurtest keelemudelitest. Muretsetakse, kas need mõistavad hästi eesti keelt ja on ka võimelised seda kõnelema. Kardetakse, et kui tehisintellekti rakendav külmkapp või muud asjandused keelt vigaselt või vaeselt kasutavad, siis eesti keel lõpuks kängub. Seepärast neid mudeleid uuritakse, testitakse ning ka treenitakse edasi. Kõvasti on rakkes eesti keele instituut, ülikoolide teadlased, treenimiskorpuste kokkusaamise nimel pingutavad justiitsministeeriumi ametnikud jpt. Tehisaru ajastul ootab valitsus keele arendamise suurt plaani kalendriaasta lõpuks. Loodetavasti saadakse see ka valmis.

Kuid kas sellest piisab? Pakun ühe mõtteeksperimendi. Äsja lõppes laulupidu – sündmus ja nähtus, mida peetakse üheks eestluse tugisambaks, eesti kultuuri tuumaks. Kuid kas on võimalik, et tehisaru saab täielikult selle nähtuse olemusest aru, kui talle selle mõistmiseks söödetakse sisse ainult kirjutatud tekste: laulusõnu, peo kava, igasuguseid juhtmaterjale lauljatele, ajalehes ilmunud ülevaateid, intervjuusid, aegade jooksul kirjutatud esseid jms?

Midagi kindlasti saab. Kuid ikkagi on tegu Platoni koopaseinte varjude laadse arusaamaga elu kirjususest. Ilma videosalvestisteta proovidest, rongkäigust, peost enesest, lauluväljaku miljööst, rahvahulkade tihedusest ja nende reageeringust, fotodeta vihmakeepidest, mudast lauluväljaku servadel, toitlustusputkadest sealsamas, mitmesugustest rahvarõivaste stiliseeringutest jpm pole võimalik mõista laulupidu ümbritsevaid tähendusseoseid. Aga kui ei mõista, pole võimalik ka sisukalt kõnelda Eesti olemisest, teenida kultuuri ja ühiskonda. Laulupidu on siin vaid üks näide. Vähesest on võimalik lõpuni tähenduslikult rääkida, kui ollakse poolpime. Ja suured keelemudelid seda on.

Kui toome mängu video, heli ja fotod, hakkavad masinad „nägema“, kuidas Pärnu rannamiljöö erineb Pühajärve kallastel aset leidvast ning kuidas eesti keel ja kirjandus saavad ainest linnade argirütmidest.
Urmas Luik / Scanpix

Ses osas oli tähenduslik tehisaru arenduste ühe ristiisa Yann LeCuni paari kuu eest Nvidia konverentsil justkui šokeerivana esitatud tõdemus, et teda suured keelemudelid enam kuigivõrd ei huvita.

Miks? Kujutage ette, et peate aru saama jalgpallimängust, aga lugeda tohib ainult mängu kokkuvõtet ajalehes. Samal ajal väljakut, sööte ja väravaid ei näe. Just sellises olukorras on suured keelemudelid, kui nad „loevad“ maailma ainult sõnade kaudu. LeCun rõhutab, et tekst annab küll infot, kuid jätab välja kõik nähtavad-kuuldavad pisiasjad – kuidas pall keerleb, kuidas publik kaasa elab, kuidas mängija kukub. Kui mudel ei näe ega kuule, peab ta need detailid välja mõtlema ja eksib sageli, sest tal puudub vajalik kogemus.

Väikelapsed õpivad teisiti. Nad vaatavad ja kuulevad miljoneid väikseid katkeid – ema näoilmeid, palli põrget, vihma sabinat – ning seovad need oma peas ühtseks maailmapildiks. Ilma silpigi lugemata kujuneb neil niimoodi esimeste eluaastate jooksul välja põhjalik, seostatud ja detailne arusaamine sellest, kuidas maailm toimib. LeCun nimetab seda iga inimese peas olevat kaarti maailmamudeliks. Selline mudel võimaldab lapsel ette kujutada, mis juhtub, kui ta käe välja sirutab, et palli lüüa. Üksnes tekstiga sellist maailma üles ei ehita: tarvis on videot ja heli, sest need annavad katkematu pildi toimuvast ja võimaldavad arvutil teha samasuguseid oletusi ja plaane, mida inimene teeb alateadlikult.

Veidi tehnilisemalt: suured keelemudelid (large language models, LLM) töötavad diskreetsete sümbolite jadadega, mis omakorda lähtuvad kõigist senisest kirjutamistraditsioonidest. Seejuures jagab nn tokenisaator lause kümneteks tuletatud ühikuteks. Kuid selle käigus kaob side elu pidevusega – omavahel seotud sõltuvussuhted liikumiskiiruse, valguse-varju ja helivibratsioonide vahel. Sellest tulenevalt on mudel sunnitud „ära arvama“ muutujaid, mis jäävad tekstist väljapoole: kui kiiresti tass laual jahtub, mitu sekundit venib paus või kuidas materjalide hõõrdumisteguri muutus mõjutab järgmist sündmust. Selline ennustusaugu lappimine statistilise interpolatsiooni kaudu tekitab ennustustes hallutsinatsioone ning raiskab arvutusressurssi, sest mudel ei saa tugineda vahetutele teadmistele füüsikalisest reaalsusest. Sellepärast propageerib LeCun, et neurovõrgu ülesanne pole ennustada järgmisi tekstitokeneid, vaid järgmist latentset tingimust – tihendatud esitust kogu nähtavast ja kuuldavast reaalsusest. Just latentruumi järjepidevus loob aluse maailmamudelile, mis simuleerib „mis‑siis‑kui“ stseene pigem nagu arvutimängude füüsikamootor kui tekstide kompositsioonigeneraator.

Veel üks kriitiline puudujääk on LLMide heuristilised otsingusüsteemid: püüdes lahendada keerukamat ülesannet genereerib mudel tuhandeid tokenijadasid ning hindab neid sarnaselt programmeerija katsetega kirjutada nii kaua juhuslikku koodi, kuni lõpuks üks variant toimib. Ent mida ulatuslikum on lahenduse ruum, seda eksponentsiaalselt mahukam on selle kombinatoorika. Ilma maailma dünaamika sisereegliteta ei saa LLM ennetavalt filtreerida ebatõenäolisi trajektoore – iga katse on pime. Videopõhine õppimine pakub siin lahenduse, sest sensoorne ahel lubab õppida energia‑ või kontrastipõhiseid hindamisfunktsioone, mis järsult vähendavad otsinguruumi, filtreerides füüsikaseadustele või sotsiaalsetele normidele mittevastavad tulemid juba varases etapis. Nii vahetatakse „toore jõu“ statistika välja maailma mõistmise vastu; algoritm ei lõpeta enam pelgalt lauset, vaid teab, miks on põrand märg ja kleepuv, kui kass on Fanta pudeli lauaservalt maha lükanud.

Teisisõnu ütleb LeCun, ja tema kolleegid üle ilma, et ainult sõnadele toetuv tehisaru on nagu pime filmikriitik. Et masin mõistaks, miks pall põrkab just nii, nagu ta seda teeb või miks publik kooris hüüatab, tuleb talle näidata mängu ennast – liikumist, värve ja helisid – ning lasta tal neist õppida nii, nagu me ise seda juba lapsepõlvest saati teeme. Tekst oskab „öelda“, mis on kirjas, kuid ta „ei tea“, mis juhtub, kui laulupeol keegi pulti ronib. Video on vajalik, et tajuda jõude, raskust, temperatuuri ning emotsioonide modulatsioone. Need signaalid annavad nn maailmamudelile kaalu ja ulatuse, võimaldades tal lauset ennustada, mitte üksnes lõpetada.

Rõhutagem, et asi ei ole vaid füüsikas, vaid komplekssete seoste mõistmise võimes mille „väljaarvutamiseks“ on eeldatavalt samuti abi niinimetatud latentruumist. Huvitaval kombel tuleb LeCunile selle selgitamises appi Juri Lotmani kultuurisemiootika. Lotman on väitnud, et iga kultuur on omaette tähistamissüsteemide konglomeraat, eriline tõlkemootor, mis võtab ühes meediumis sündinud teksti – olgu see siis heliline, visuaalne, ruumiline või verbaalne – ja tõlgib selle teise. Tõlkimisel sünnib midagi uut, kuid samal ajal on iga kultuur sellistest tõlgetest sündinud komplekssete pidevusseoste konglomeraat. Nii on ka igal kultuuril oma maailmamudel, polümodaalne sümfoonia, kus üks häälerühm üksi ei kanna kunagi kõike. Tehisaru, mis eesti kultuuri ja ühiskonda sisukalt teenindada suudaks, mis mõistaks selle pidevust ja kompleksseid sisesuhteid, vajab varem või hiljem sisendiks ka video-, foto- ja helimaterjale.

Eesti häda ongi see, et keegi, ükski institutsioon ega ametkond ei ole nende teiste modaalsuste kaasamiseks valmis. Ei ole eesmärkigi seadnud, valmistumisest rääkimata. Eesti keele instituut tegeleb keelega, justiitsministeerium aitab neid treeningkorpuse loomisega, ja ongi kõik. Vaid BFMis eksperimenteeritakse, kuidas luua audiovisuaalsest materjalist teadmusgraafe, et neid hiljem kasutada tehisaru tulemusrikkamaks treenimiseks. Sellised teadmusgraafid on mõeldud just erinevates modaalsustes esineva informatsiooni seostamiseks. Kuid akadeemilistest eksperimentidest ei piisa. Meil on vaja süsteemsemalt läbi mõelda, kuidas hakata tehisaru treenimiseks kasutama ka visuaalset ja audiovisuaalset materjali ning kes selle eest hoolitsema peab. Sellega tuleks alustada enne, kui LeCuni tüüpi maailmamudeli põhised tehisarulahendused valmis on saanud, sest video on tänapäeval peamine õppimise ja õpetamise meedium ning tuleb tagada, et loojatel oleksid kasutada videoloome tööriistad, mis lähtuvad maksimaalsel määral eesti kultuuri eripärast. Audiovisuaalne tehisarumudel, mis väikekultuure ei tunne, võib osutuda aegade mõjukaimaks kultuuri homogeniseerijaks.

Millised institutsioonid peaksid sellise treenimistöö eest vastutama? Minu arvates on aeg hakata vaatama ERRi ja rahvusarhiivi poole uue pilguga. Kui seni on arhiivide ülesanne olnud pärandvara hoidmine ja taastamine, siis nüüd peab vähemalt ühele neist usaldama veel ülesande hakata meie omakultuuri teenindava tehisaru mudeleid treenima. Pean siin peamiseks võimaluseks ERRi, mille andmereservuaarides on paratamatult rohkem representatsioone Eesti reaalelu kohta kui ainult filmikunstile keskendunud rahvusarhiivi filmiarhiivis. ERRi salvestised Vormsi jaanituledest, suvistest tõukerattaretkedest või tehnikaülikooli tudengisatelliidi lennust pakuvad palju ainest mõistmaks Eesti elu mitmekesisust. Vaid selliste materjalide toel saab rajada Lotmani mõttes modaalsuste vahel tõlkesildu (olgu teadmusgraafina, latentruumina või muul moel) ja ehitada LeCuni mõttes eesti kultuuri maailmamudelit, mis ei ole üksnes statistiline kompilaator, vaid elus, ennustav ning süvenev mõtlemismasin.

Et audiovisuaalne aines oleks kasutuskõlblik, vajab ERRi arhiiv nii metaandmete süstematiseerimist kui ka tõhusat lisaeelarvet valdkondlike arendustiimide ametisse võtuks. Tõsi, on kuulda, et paari aasta eest hoogsalt alanud ERRi seaduse uuendamisprotsess on kultuuriministeeriumi juhatusel ja rahandusministeeriumi õhutusel kängumas asendustegevuseks, mille käigus on ära nuditud nüüdisaegsed eesmärgid muuta ERR digiajastul valdkondliku innovatsiooni eestvedajaks ja korraldajaks. Paraku on tegu nüüdisajal enamikus Euroopa riikides tunnistatud ja tunnustatud printsiibiga: innovatsioon, selle koordineerimine audiovisuaal- ja meediasektoris on üks viise, kuidas avalik-õiguslikud institutsioonid saavad ühiskonnale väärtust luua. Et kultuuriministeerium ses osas taas lati alt kükakil läbi ronib, eriti tehisaru innovatsioonilaine aastatel, on nii rahvuskultuuri käekäigu kui ka käimasoleva TI-hüppe seisukohalt läbimõtlematu ja vastutustundetu.

Kui me jätame selle suuna edendamata, jääbki tehisaru seisma koopaseina ette ning teeb järeldusi meie olemise kohta vaid vähese kirjapandu põhjal. Kui aga toome mängu video, heli ja fotod, hakkavad masinad „nägema“, kuidas Pärnu rannamiljöö erineb Pühajärve kallastel aset leidvast, kuidas lähtuvad eesti keel ja kirjandus linna argirütmidest ning kuidas erineb meie maanteesõidu kultuur Soome omast. Selliste seoste nägemine mitte ainult ei vähenda tehisaru hallutsineerimist Eesti ainese kohta, vaid võimaldab sel toimida tervikliku, ajas areneva ja riigi käekäiku sisukalt prognoosiva abimehena.

Teisisõnu, meil on aeg mitte ainult audiovisuaalset kultuuri tõsiselt võtta, vaid näha seda kui eeltingimust sisukaks TI-hüppeks ja Eesti konkurentsivõime tõhustamiseks. Ja kui me tõesti suudame ja tahame seda tõsiselt võtta, siis on aeg anda meie asjakohastele institutsioonidele uusi ülesandeid neid selles ka toetades.