Kuidas uurida andmestunud ühiskonda?

Digitaalsed registriandmed on Eesti ühiskonnas kaalukas infrastruktuur, rahvusvaheliselt on andmetega tegelevate institutsioonide arvu kasvu nimetatud isegi uueks andmesektoriks.

ANU MASSO, KATRIN TIIDENBERG, ANDRA SIIBAK

Tänapäeva ühiskondade üheks suuremaks proovikiviks, seda nii Eestis kui ka rahvusvaheliselt, on ühiskonna andmestumine. Andmestumine (ingl datafication), viitab protsessidele, mille käigus igasugune inimtegevus tõlgendatakse andmetesse, mis analüüsi teel saab informatsiooniks ja seeläbi luuakse uut väärtust. Andmestumine on üks keerulisemaid digitaalse transformatsiooni ja võrgustumisega kaasnevaid muutusi.

Andmed ei ole neutraalsed

Andmestumisel on suur mõju nii meie igapäevaelule, struktuursetele ühiskondlikele protsessidele kui ka (sotsiaal)teaduslikule epistemoloogiale ning metodoloogiale ehk viisidele, kuidas ühiskonnaprotsesse mõistetakse ja selgitatakse. Aina raskem, kui mitte võimatu, on ühiskonnas osaleda ilma enda kohta digitaalseid andmeid aktiivselt loomata ja passiivselt tekitamata. Meie kasutatavad, võrgustunud ja kaasaskantavad (suhtlus)tehnoloogiad (nutitelefon, nutikell jms) loovad, koguvad, edastavad ja talletavad andmeid. Samuti tegelevad andmete loomise ja kasutamisega ettevõtted ja institutsioonid.

Nii on andmestunud ühiskonnas andmeteks kõnetoimingute tulemusel salvestatud asukohaandmed, filmiandmebaasis olevad metaandmed ehk filmide märksõnalised kirjeldused, aktiivsusmonitoridele kaalujälgimisrakendustele salvestatavad terviseandmed, ühismeediasse postitatud fotode ja tekstide kaudu maha jäetud digitaalsed jalajäljed jpm. Sellised digitaalsed andmed pakuvad teadlastele väärtuslikku teavet infoühiskonna nähtuste, toimimise ja inimeste käitumise kohta, nende abil saavad otsustajad leida lahendusi ühiskondlikele probleemidele. Samal ajal kuuluvad nimetatud andmed sageli eraettevõtetele, mistõttu kaasneb nende andmete kasutamisega hulk eetilisi ja metodoloogilisi küsimusi. Selliselt loodud andmed ei ole oma olemuselt neutraalsed, vaid kannavad endas andmete loomises osalenute eelarvamusi, taastoodavad ja võimendavad varasemaid võimusuhteid. Nii toimub andmete esitamise kaudu ühiskondlike nähtuste kindlal viisil raamistamine. Andmed kannavad endas tähtsaid sõnumeid, mida sageli pole otseselt näha.

Sotsiaalteadlastele on ühiskondliku andmestumisega kaasnevate küsimuste seast kriitilisima tähtsusega järgnevad. Kas ja kuidas on muutunud/muutumas digitaalsete andmete esilekerkimisega teadmiste loomine üldiselt või sotsiaal- ja humanitaarteaduslike küsimuste püstitamine, analüüs, tõlgendus ja järelduste tegemine? Kuivõrd sobivad olemasolevad meetodid teadusliku teadmise loomiseks selles kontekstis? Millised on uued tekkivad meetodid ja kuivõrd need sobituvad varem kasutatud uurimismeetoditega? Kuidas on muutunud uurija roll, uurimisobjekt? Millistele uutele uurimisküsimustele, probleemidele need uued andmeallikad võimaldavad vastata ja milline on nende kallutatus, riskid ja probleemid?

Nende küsimuste üle arutlesime 26. – 27. aprillil Tartus toimunud Eesti sotsiaalteadlaste aastakonverentsil (ESAK XI) „Andmestunud ühiskonna uurimise meetodid“. Seekordse aastakonverentsi üldteemaks oli „Eesti tuleviku keskkonnad“ ning andmestunud elukeskkondade uurimisele keskendus konverentsil 12 kolme sektsiooni koondatud ettekannet.

Andmed ja andmestumine

Eesti kui ühe edumeelsema digiühiskonna kogemus annab väärtusliku konteksti kasutamaks digitaalseid andmeallikaid eri eesmärkidel, nt sotsiaalse heaolu tagamiseks, uute või seni vastamata uurimisküsimuste püstitamiseks ja vastuste leidmiseks. Kuidas kasutada uudseid andmeid ja meetodeid sotsiaalteadustes, aga ka interdistsiplinaarselt seotud valdkondades nagu nt inimgeograafia või antropoloogia, ajal, mil üheaegselt on kasutusel uued ja vanad, automaatselt- ja „käsitsi“ kogutud, „suured” ja „väikesed” digitaalsed andmed ja meetodid? Millised on ohud ja halb praktika digitaalsete andmeallikate ja seotud meetodite kasutamisel?

Konverentsi ettekannetest ja kaasnenud vestlustest väljakoorunu võib jagada kolmeks alateemaks: andmed ja andmestumine Eesti ühiskonnas, meetodid uute andmete analüüsimiseks ja ühiskondlike protsesside selgitamiseks ning andmesuhted ehk suhted andmesubjektide ja andmete kogujate/valdajate vahel.

Selgitame neid lähemalt. Esimene esilekerkiv teemaring oli seotud uute andmete endiga: kuidas defineerida andmetega esilekerkivaid uusi nähtusi ja piiritleda Eesti ühiskonnas tekkinud/tekkivaid andmeid. Andmeid võib käsitleda kui uut infrastruktuuri – uued andmed täiendavad olemasolevaid ja pakuvad neile alternatiive. Matemaatik ja statistik, Tartu ülikooli emeriitprofessor Ene-Margit Tiit märkis, et arvestades, et Eesti elanikud jätavad oma jälje vähemalt ühte neljakümnest võimalikust registrist (nt rahvastikuregister, hariduse infosüsteem) peaks olemasolevad registriandmed riigiasutuste andmevajadused katma, tagades seejuures suhteliselt usaldusväärsed tulemused. Digitaalsed registriandmed on niisiis Eesti ühiskonnas oluliseks infrastruktuuriks, rahvusvaheliselt on andmetega tegelevate institutsioonide kasvu nimetatud isegi uueks andmesektoriks. Suurte digi- ja registriandmemassiivide puhul on jätkuvalt määrav klassikaline metodoloogiline küsimus valimist ja selle esinduslikkusest (kui hästi esindab valim populatsiooni). TÜ inimgeograafia teadur Anto Aasa juhtis oma mobiiliandmetele tuginevas ettekandes tähelepanu sellele, et Eesti on nende väheste maailma riikide hulgas, kus mobiiliandmetega on kaetud nii turismistatistika kui ka tiheasustusega piirkonnad (nt Tallinnas). Selline kaetus võimaldab detailset reisi- ja mobiilsuskäitumise statistikat. Samal ajal on mobiiliandmed üldistatavad eelkõige konkreetse operaatori võrgus olevatele lepingulistele klientidele, kelle hulgast jäävad sageli välja alla 20aastased. TÜ sotsiaalse analüüsi nooremteadur Indrek Soidla keskendus esinduslikkuse probleemidele veebipaneelides, kus igal potentsiaalsel uuritaval puudub võrdne võimalus valimisse sattuda. Seetõttu on ka rahvusvahelised veebipaneelidele keskendatud võrdlus­uuringud tihti üldistatavad vaid ühele kitsale uuritavate rühmale.

Eri institutsioonide andmete kasutamise kohta on diskussiooni ja teadlikkust vähe. Veelgi vähem teame, kes on kolmandad osalised, kes meie andmeid kasutada võivad. Pildil Google’i serveripargid-andmepangad.

Google

Peale diskussioonide, mis keskendusid andmetele kui infrastruktuurile, tõusid esile (suur)andmete ja andmestumise ühiskondlikud tagajärjed – andmed on tihedas vastastikuses seoses ühiskonna kultuuri ja struktuuriga, nt institutsioonide toimimise ja regulatsioonide kaudu. Tänu andmete rohkusele ja andmestumise levikule on ühiskondlikud ja kultuurilised nähtused rohkem märgatavad, mõtestatavad ja tõlgendatavad. Tallinna ülikooli järeldoktor Maarja Ojamaa ja meediainnovatsiooni professor Indrek Ibrus tõstatasid küsimuse, kas andmebaasid ning nendega seotud andmelahendused, nt soovitusalgoritmid, mitmekesistavad kultuurikogemust, nt annavad juurdepääsu muusikastiilidele, või, vastupidi, vaesestavad seda, pakkudes muusikastiile, mida juba on kuulatud. Siiski on sedalaadi hinnanguid andes vaja meeles pidada, et empiirilised vaatlused, inimeste digitaalsed jalajäljed, Eesti filmid või telefonisuhtlus mobiilsidemastidega saab andmeteks alles inimeste tahtel ja suhtes teatud eesmärgiga. Andmete loomisega kaasneb alati teatud hulk otsuseid, raamistamist, filtreerimist ja kategoriseerimist, mis enam kui me arvata oskame peegeldab otsustajate maailmanägemist. Ka isikuandmed, mille temaatikat käsitles oma ettekandes TÜ intellektuaalse omandi õiguse professor Aleksei Kelli, pole olemuselt objektiivne kategooria, vaid peegeldab tõlgendava isiku või institutsiooni arusaamu. Isikuandmete alusel kategoriseerivad institutsioonid meid rühmadesse, millest me sageli teadlikud ei ole. Samuti on meil piiratud võimalused vaidlustada iseenda kuulumist mingisse kategooriasse, ometi on neisse kategooriaisse kuulumisel meile praktilisi tagajärgi.

Uute andmekogude ning meetodite tõttu on karjuv vajadus eestikeelse terminoloogia arendamise järele. Nii mõnedki teadlased tõid esile raskusi ingliskeelsetele terminitele suupäraste eesti vastete leidmisel ja rõhutasid vajadust erialase sõnavara arendamise järele, et uutest nähtustest rääkimisel ei jäädaks jalgu kiirele arengule andmestumise nähtustes ning andmetes endis. Juba konverentsi ette valmistades kerkis korraldajail küsimusi, kuidas nimetada tekkinud ühiskondlikku nähtust. Kas tegemist on teabeühiskonna, infoühiskonna või andmeühiskonnaga? Otsustasime rahvusvaheliselt käibel oleva mõiste eeskujul (ingl datafied society) andmeühiskonna või andmestunud ühiskonna mõiste kasuks, kuna see võimaldab kõige paremini tähistada igapäevaelu, ühiskondlike protsesside ja digitaalsete andmete tihedat läbipõimumist.

Kuidas analüüsida?

Teine suurem teemaring, millele keskenduti, oli vajalike uurimismeetodite areng, selleks et uusi tekkinud andmeid kasutada ning ühiskondlikele protsessidele selgitusi ja tõlgendusi pakkuda. Helsingi ülikooli inimgeograafia doktorant Kerli Müürisepp ja teadur Olle Järv tõid oma ettekandes välja, kuidas mobiiliandmed võimaldavad täpsemalt uurida ühiskondlikku või majanduslikku segregatsiooni (kihistumist). Samal ajal eeldab uute andmete kasutamine suuremat metodoloogilist läbipaistvust, et tulemuseks poleks must kast, mille korral keegi täpselt ei tea, mida andmed ikkagi näitavad. Siinkohal rõhutasid etnograafiliste ja kvalitatiivsete ning loominguliste käsitluste võimalusi TÜ sotsiaalmeedia lektor Maria Murumaa-Mengel ning Malmö ülikooli meediauuringute professor Pille Pruulmann-Vengerfedt, kelle ettekanded veebipõhistest süvaintervjuudest ja digitaalsest autoetnograafiast illustreerisid seda, kuidas suurte andmemassiivide põhjal tehtud korrelatiivseid seoseid väikeste, ent tihedate andmete abil konteksti seada.

Digitaalne (auto)etnograafia, veebiküsitlused ja veebipõhised kvalitatiivsed uuringud pakuvad suurepäraseid võimalusi andmesubjektide kogemuste ja arvamuste, aga ka uurijate online-kogemuste reflekteerimise kaudu ühiskondlike nähtuste selgitamiseks. Sellised süvameetodid on asendamatud tundlike teemade uurimisel. Samuti valitses osalevate teadlaste vahel suures plaanis konsensus ses osas, et arvutuslike käsitluste esmaste katsetustega kaasas käinud teooria lõppu ei paista kusagilt. Pigem on ühiskonnateooria andmete mõistmisel ja kasutamisel aina olulisem. Teisalt toodi välja, et seoses uute andmete ja meetoditega on suurenenud uuringute läbiviimise kiirus – uurija peab kiiremini reageerima uuritava nähtuse ilmnemisele ja arengule. Samuti annavad online-meetodid võimaluse rakendada paindlikumalt andmekogumist toetavaid ja soodustavaid projektiivtehnikaid, nt interaktiivsed ülesanded, mängulised keskkonnad.

Andmesuhted

Kolmas teemaring käsitles andmesuhteid, s.t uute andmete loomise, juurdepääsu ja kasutamisega seotud interaktsioone indiviidide ja institutsioonide vahel. Andmesuhete teemat on tähtsustatud nii traditsiooniliste registriandmete kui ka uuemate andmetüüpide korral. Näiteks tõi statistikaameti analüütik Arno Lõo registripõhiseid andmeid käsitlevas ettekandes välja, et andmete kasutuse korral on tegemist kahe ühiskonnatüübi vahel. Saksa sotsioloog Ferdinand Tönnie on nimetanud neid Gemeinschaft vs. Gesellschaft. Andmete kasutamise ja loomise põhimõtted lepitakse kokku kas institutsionaliseeritud poliitika või kogukonna andmeaktivistide kokkulepete tulemusena. Lõo hinnangul on Eesti ühiskonnas tendents liikuda esimese ehk professionaliseeritud ja institutsionaliseeritud andmepoliitika suunas. Ettekandjate sõnul on sellised andmesuhete muutused viinud olukorrani, kus andmete kasutajad, nt sotsiaalteadlased, on liigselt sõltuvad andmete pakkujast, nt eraettevõtetest või riiklikest institutsioonidest. Samuti toimub pidev võitlus ja enese tõestamine teemal, et andmed ei tee kellelegi kahju ega riku kõrgete standarditega teadusliku kasutamise korral kellegi privaatsust. Andmelahenduste edasine areng vajab institutsioonide ja ühiskonna kokkulepet. Kui teadlasi huvitaks näiteks rahvaloenduse ja mobiiliandmete puhul samade pseudonüümidega koodide kasutamine ning kahe andmestiku omavaheline suhestamine, on selge, et eelnevalt tuleks kokku leppida institutsionaalsed privaatsuse põhimõtted. Eri institutsioonide andmekasutuse kohta on avalikku diskussiooni ja teadlikkust endiselt vähe. Veelgi vähem teame, kes on kolmandad osalised, kes meie andmeid kasutada võivad (nt kuidas töötleb ja kasutab Fitbit meie aktiivsusmonitori salvestatavaid terviseandmeid).

Targa linna Amsterdami tänavavalgustuses arvestatakse jalakäijate hulgaga ja tühjal tänaval valgust vähendatakse.

Wikimedia Commons

Pealegi on andmed ise üha rohkem kaup – need annavad juurdepääsu informatsioonile, võimule. Kuigi idee kaubastunud andmetest ei ole iseenesest uus (metafoorid andmetest kui uuest naftast on kasutusel olnud aastaid), on üha enam juttu andmesuhete kaubastamisest. Kaubastuvate andmesuhete puhul lähtuvad andmete valdajad ja kasutajad suuresti ärihuvidest. Sellist suhtumist peegeldab ka asjaaolu, et traditsiooniliste registriandmete ja veebiandmete korral on tekkinud suhtumine, et andmete kogujad peavad andmesubjektide aja suhtes olema lugupidavad. Seega tuleb konkreetse andmekogumismeetodi korral üha enam arvestada, et see poleks andmesubjektile ajaliselt kurnav.

TÜ ühiskonnateaduste instituudi analüütiku Indrek Soidla ettekandes kerkis andmesuhete kaubastumise puhul esile küsimus, milliste ühiskonnarühmade korral võib teatud tasu (nt arvuti kinkimine/loosimine veebiarutelus osalemise eest) olla motiveeriv ning kas selline andmekogumise tasustamine viib usaldusväärsete uuringutulemusteni ja valimini, mille põhjal on võimalik teha üldistusi. Andmesuhete kaubastumine annab võimu ja eelisseisundi eraettevõtetele (nt Facebook), kuna nende toodete-teenuste kasutamisest tekkivaid andmeid peavad paljud selle teenuse ja toote kasutamise mõistlikuks hinnaks. Eraettevõtteil jääb tihti vajaka nii andmete ühiskondliku heaolu eesmärgil kasutamise oskustest kui ka motivatsioonist. Pille Pruulmann-Vengerfeldt tõi näiteks meediaorganisatsioonid, kes müüvad inimestele veebis klikkimiste tulemusi kui ülevaatlikke teadmisi auditooriumi käitumisest ja hoiakutest, kuigi iga auditooriumiuurija teab, et sellised väited eeldavad inimeste endi tõlgenduste ja eelistuste täiendavat uurimist.

Viimase teemaringina tõsteti esile andmesubjekti õigused, mida rahvusvaheliselt nimetatakse andmeõiguseks (ingl data justice). Nimetatud õiglus toob välja andmesuhete peaprobleemi – andmesubjektidel on piiratud õigused ja toimimisvõime. See tähendab nii õigust olla unustatud, soovi korral uuringus mitte osaleda, kui ka õigust osaleda enda põhjal tehtavate andmelahenduste loomises. Andmeõiglus sisaldab andmevaldaja kohustust luua andmesubjektile kasu toovaid andmepõhiseid lahendusi. See teema on nii Eesti seisukohalt kui ka konverentsi diskussioonide põhjal kõige problemaatilisem – Euroopa andmekaitseseadus (GDPR) kui andmesuhete regulatsioon paneb õigusliku raamistiku vaid üldjoontes paika. Liialt jäigalt üle võttes ei pruugi see sobituda kohaliku andmepraktikaga. Andmepraktika kujundamisel on lahenduseks andmeid loovate, kasutavate ja rakendavate andmesubjektide (nt inimese kui eraisiku) kaasamine andmepõhiste reeglistike ja otsuste loomisse.

Selline andmesubjekti kaasamine eeldab teatud andmekirjaoskust ja -pädevust, seega teadlikkust, et (uurimis)asutused kasutavad inimeste loodud andmeid, teadlikkust veebikeskkondades kasutatavatest algoritmilistest selektsiooni põhimõtetest, usaldust riiklike institutsioonide andmelahenduste suhtes ning ka oskust ise andmeid kasutada, nt kodanikuteaduse vormis. TÜ ajakirjandussotsioloogia dotsent Ragne Kõuts-Klemm märkis, et teatud ühiskonnagruppide, nt ajakirjanike andmepädevus on kiirelt muutuvate andmesuhete puhul eriti oluline. Ka kodanikel on siin võimalus näidata suuremat kodanikuaktiivsust, püüdes saada kasu oma andmetest, mitte lasta end tagaselja kategoriseerida, manipuleerida ja ekspluateerida. Kaubastunud andmesuhete puhul on võimalus keelduda enda kohta andmete tootmisest indiviidi privileeg, kuid pole mingit põhjust, miks see peab nii olema. Kõik nimetatud aspektid – teadlikkus kogutavatest andmetest, aktiivselt andmete loomine, juurdepääsu loomine andmetele ja andmete kasutamine – eeldavad ühiskondlikku kokkulepet. Eestis peaksime uues andmestunud ühiskonnas valima andmesuhete loomiseks kodanikke soosiva strateegia.

Kui sulle meeldis see postitus jaga seda oma sõpradega

[LoginRadius_Share]

Leia veel huvitavat lugemist

Värske Rõhk
Hea laps
LR
Keel ja kirjandus
Akadeemia
Kunstel
Muusika
Õpetajate leht
Täheke
TeaterMuusikaKino
Vikerkaar
Looming
Müürileht