Kuidas õpetada arvuti emotsioone väljendama?

Esimene katsetus panna eestikeelne kõnesüntesaator emotsioone väljendama võiks olla lähtepunkt edasisele eestikeelse emotsionaalse sünteeskõne akustiliste mudelite arendamisele.

KAIRI TAMURI

Arvutitel ei ole emotsioone, nad ei tunne midagi. Emotsioonid on inimestel, kes arvuteid loovad. Inimesed püüavad teha arvutitest iseenda asendajaid ning õpetada neile inimestele omaseid oskusi. Üks selline võime on kõnelemine, mis muu hulgas sisaldab ka emotsioonide väljendamist.

Selleks et anda arvutile hääl ja panna ta inimese moodi rääkima, kasutatakse kõnesünteesi. See on programm, mis muudab digitaalse kirjaliku teksti hääldustekstiks ehk kõneks. Oma hääle saab arvuti inimhäälest: doonorhääle põhjal treenitakse kõnemudelid ja nende mudelite alusel sünteesitakse väljundkõne. Kõnesünteesi rakendatakse peamiselt inimese ja masina suhtluses, multimeedias ning nägemis-, lugemis- ja kõnepuudega inimeste abivahendites.

Kõnesünteesi arendajate eesmärk on muuta sünteeskõne võimalikult inimkõne sarnaseks kõigis selle aspektides. Maailmas, sh Eestis,1 on kõnesünteesi arendamisega jõutud heale tasemele: sünteeskõne on arusaadav ning kõlab järjest vähem masinlikult. Ometi jääb veel loomulikkusest puudu. Üks viis, kuidas muuta sünteeskõne tõepärasemaks, on lisada sellele emotsioone, sest inimkõnes on emotsioonid alati olemas ja seepärast peaksid need tajutavad olema ka loomulikkust taotlevas kõnesünteesis. Emotsioone saab lisada nii sõnavaliku kui ka sünteeshääle akustiliste parameetrite muutmisega.

Emotsiooniakustika uurimustest2 on teada, et igal emotsioonil on seda teistest emotsioonidest ja neutraalsest kõnest eristav akustiline muster ehk akustiliste parameetrite väärtuste kombinatsioon. Kuulajad suudavad emotsioonid kõnes ära tunda ainuüksi heli põhjal, ilma kõneleja nägu nägemata, nt telefonivestlustes. Samuti ollakse võimelised määrama hääles peituvat emotsiooni isegi siis, kui kõik öeldud sõnad on tähenduseta.3 See näitab, et hääl kannab teavet kõneleja emotsioonide kohta ja et emotsioonide häälelistel väljendustel on erinevad akustilised mustrid.

Rimini Protokolli lavastuses „Kauge X“ („Remote X“) juhib osalejaid läbi linna kõnesüntesaatori hääl kõrvaklappides. Pildil etendus festivalil „Talveöö unenägu“ 2014. aastal.

Siim Vahur

Sünteeshääle emotsionaalselt kõlama panemiseks on mitu võimalust. Üks neist on luua kõnesüntesaatorile emotsionaalse kõne akustilised mudelid, mis aitavad arvutil soovitud emotsioone hääleliselt väljendada. Akustilised parameetrid, mida emotsioonide tekitamiseks sünteeskõnes muudetakse, on näiteks põhitooni kõrgus (tajutav kui hääle kõrgus), intensiivsuse tase (tajutav kui hääle valjus) ja kõnetempo (tajutav kui artikuleerimise kiirus).

Selleks et emotsioone sünteeskõnele lisada, on esmalt vaja teada, kuidas emotsioonid mingis keeles hääleliselt väljenduvad, s.t milliste akustiliste parameetrite väärtusi millisel määral ja mis suunas nad mõjutavad. Kuna emotsioonide hääleline väljendamine võib erineda keeleti ja kultuuriti ning emotsioone tuntakse heli järgi paremini ära sama keele ja kultuuri sees,4 siis tuleb iga keele kohta teha eraldi uurimus. Mina tegin oma uurimistöö eesti keele kohta. Uurisin, milline on kolme põhi­emotsiooni – rõõmu, kurbuse ja viha – hääleline väljendumine eestikeelses etteloetud kõnes, ning püüdsin saadud tulemustele tuginedes luua koos kolleegi Meelis Mihklaga eestikeelsele kõnesüntesaatorile parameetrilise sünteesi jaoks emotsionaalse kõne akustilised mudelid, mis aitaksid süntesaatoril äratuntavalt nimetatud emotsioone väljendada. Kuigi teadupärast on olemas kuus põhiemotsiooni: rõõm, kurbus, viha, hirm, vastikus ja üllatus, valisin uurimistöösse neist vaid kolm. Selle põhjuseks oli asjaolu, et neid kolme emotsiooni vajatakse kõnetehnoloogilistes rakendustes kõige enam.

Emotsioonide väljendumist eestikeelses kõnes uurisin Eesti emotsionaalse kõne korpuse5 alusel, mis sisaldab ühe naishääle etteloetud ajakirjanduslikke tekstilõike. Korpuses olevad emotsioonid ei ole näideldud, vaid teksti poolt lugejas esile kutsutud.

Kuidas kõlavad rõõm, kurbus ja viha etteloetud kõnes?

Akustiliste parameetrite analüüsi tulemustest joonistusid välja rõõmu, kurbuse ja viha akustilised mustrid eestikeelses etteloetud emotsionaalses kõnes. Uurimusest selgus, et rõõmu-emotsiooni iseloomustavad võrreldes neutraalse kõnega sarnane artikulatsiooni täpsus, kiirem kõnetempo, vaiksem hääl ja väiksem hääle valjuse varieerumine ning kõrgem hääl ja suurem hääle kõrguse varieerumine.

Kurbusemotsiooni iseloomustavad võrreldes neutraalse kõnega ebatäpsem artikulatsioon, aeglasem kõnetempo, vaiksem hääl ja suurem hääle valjuse varieerumine ning sarnane hääle kõrgus ja väiksem hääle kõrguse varieerumine. Vihaemotsiooni iseloomustavad võrreldes neutraalse kõnega sarnane artikulatsiooni täpsus, kiirem kõnetempo, vaiksem hääl ja suurem hääle valjuse varieerumine ning madalam hääle kõrgus ja suurem hääle kõrguse varieerumine.

Kui võrrelda eesti keele kohta saadud tulemusi teiste keelte omadega, siis kõige üllatavam tulemus oli see, et eestikeelses kõnes oli kõneleja hääl kõige valjem neutraalse kõne puhul. Hääle valjuse muutumine lause jooksul oli neutraalsel kõnel märkimisväärselt väiksem kui näiteks kurbusel ja vihal. See võib olla eestikeelse kõne eripära, et neutraalne kõne on valjem ja ühtlasema valjuse tasemega kui emotsionaalne kõne. Samuti võis tulemust mõjutada etteloetud kõne lugemisstiil. Kuid tuleb ka meeles pidada, et minu emotsiooni­akustika uurimus tugines vaid ühe ettelugeja kõnematerjalil ning saadud tulemused kajastavad vaid üht võimalikku viisi emotsioone ja neutraalsust eesti keeles väljendada.

Emotsioonide lisamine eestikeelsele sünteeskõnele

Kui oli teada, kuidas emotsioonid eestikeelses kõnes hääleliselt väljenduvad, siis püüdsime koos kolleegiga leida eestikeelsele kõnesüntesaatorile sobivaimad akustilised mudelid rõõmu, kurbuse ja viha väljendamiseks eestikeelsel parameetrilisel kõnesünteesil nii mees- kui ka naissünteeshäälele (eestikeelne kõnesüntesaator räägib mees- ja naishäälega).

Akustiliste mudelite loomisel lähtusime eestikeelse emotsionaalse inimkõne häälelise väljendumise uurimistulemustest. Esmalt koostasime iga emotsiooni kohta kolm katsemudelit. Katsemudelites kasutasime sünteeshääli, mida on treenitud neutraalse kõne korpuste baasil. Neutraalse sünteeskõne parameetrite väärtused olid määratud süntesaatori enda kõnemudeliga ning need ei sõltunud uurimistöö tulemustest neutraalse kõne kohta.

Katsemudelid komponeerisid nelja parameetriga: kõnekiiruse, intensiivsuse taseme, põhitooni kõrguse ja põhitooni ulatusega. Iga katsemudel sisaldas rõõmule, kurbusele ja vihale omast parameetrite väärtuste kombinatsiooni kas optimaalsel tasemel (lähtub inimkõne analüüsi tulemustest), vähendatud kujul või võimendatud kujul. Näiteks kui inimkõne analüüsist selgus, et kurbuse puhul on kõnetempo neutraalse kõnega võrreldes aeglasem, siis võimendatud väärtustega mudelis muutsime tempo veel aeglasemaks, vähendatud väärtustega mudelis aga kiiremaks.

Katsemudelite hindamiseks lasime katseisikutel kuulata neutraalse sisuga sünteeskõne lõike ning otsustada, milline emotsioon lõigus kõlab: kas rõõm, kurbus või viha või on lõik ilma erilise emotsioonita ehk neutraalne. Tulemustest selgus, et kurbus ja viha tunti nii mees- kui ka naissünteeshääles hästi ära (tuvastusprotsendid jäid 65–80% piiresse), rõõm aga mitte (tuvastusprotsendid jäid 30–55% vahele). Kui kurbuse ja viha jaoks loodud akustiliste mudelitega võib rahule jääda, siis rõõmuemotsiooni akustiline mudel vajab veel arendamist. Lisaks tasub emotsioonide sünteesimisel proovida ka teisi meetodeid, näiteks masinõpet.

Emotsioonimudelite loomise eksperiment kinnitas, et akustikaanalüüsi tulemustele tuginevate emotsioonimudelitega suudab eestikeelne kõnesüntesaator rahuldavalt väljendada nii kurbust kui ka viha, rõõmu aga mitte. Kuna uurimus tugines vaid ühe ettelugeja kõnematerjalil, siis kajastavad uurimistulemused ainult üht võimalikku viisi nimetatud emotsioone eesti keeles väljendada ning nende põhjal loodud emotsioonimudelid ei ole ainus tee, kuidas mainitud emotsioone eestikeelses sünteeskõnes esitada. Tegu oli esimese katsetusega panna eestikeelne kõnesüntesaator emotsioone väljendama ning see võiks olla lähtepunkt edasisele eestikeelse emotsionaalse sünteeskõne akustiliste mudelite arendamisele.

Eestikeelset emotsionaalset kõnesünteesi saab proovida instituudi veebilehel aadressil www.eki.ee/heli.

Kairi Tamuri on eesti keele instituudi nooremteadur.

1 Eestikeelne kõnesüntesaator, mis on vabalt kõigile huvilistele kättesaadav, asub Eesti Keele Instituudi veebilehel aadressil http://www.eki.ee/heli

2 R. Banse & K. R. Scherer, „Acoustic profiles in vocal emotion expression“. Journal of Personality and Social Psychology, 1996, 70, 3, 614–636; P. N. Juslin & K. R. Scherer, „Vocal expression of affect.“ In J. Harrigan, R. Rosenthal, & K. R. Scherer (Eds.), „The new handbook of methods in nonverbal behavior research.“ New York, NY: Oxford University Press, 2005, pp. 65–135.

3 M. Goudbeek, J. P. Goldman & K.R. Scherer, „Emotion, dimensions and formant position“. INTER­SPEECH, 2009, 1575–1578.

4 R. Altrov, R., & H. Pajupuu, „The influence of language and culture on the understanding of vocal emotions“. Eesti ja soome-ugri keeleteaduse ajakiri / Journal of Estonian and Finno-Ugric Linguistics, 2015, 6, 3, 11−48; H. A. Elfenbein, „Nonverbal dialects and accents in facial expressions of emotion“. Emotion Review, 2013, 5, 90–96; N. Kamaruddin, A. Wahab & C. Quek; „Cultural dependency analysis for understanding speech emotikon“. Expert Systems with Applications, 2012, 39, 5, 5115–5133; S. Paulmann & A. K. Uskul, „Cross-cultural emotional prosody recognition: evidence from Chinese and British listeners“. Cognition and Emotion, 2014, 28, 2, 230–244; J. A. Soto & R. W. Levenson,, „Emotion recognition across cultures: The influence of ethnicity on empathic accuracy and physiological linkage“. Emotion, 2009, 9, 6, 874–884.

5 Eesti emotsionaalse kõne korpus on avalik ning asub Eesti Keele Instituudi veebilehel aadressil http://peeter.eki.ee:5000

Kui sulle meeldis see postitus jaga seda oma sõpradega

[LoginRadius_Share]
 

Leia veel huvitavat lugemist

Värske Rõhk
Hea laps
LR
Keel ja kirjandus
Akadeemia
Kunstel
Muusika
Õpetajate leht
Täheke
TeaterMuusikaKino
Vikerkaar
Looming