Eesti raamatu 500. sünnipäeva puhul on ilmunud Eesti Rahvusbibliograafia kureeritud versioon – vabalt kättesaadav ja kvantitatiivseks analüüsiks kohandatud metaandmestik, mille kaudu on võimalik uurida meie kirjakultuuri ajalugu. Siinne artikkel tutvustab lühidalt andmekogu saamislugu ja selle kasutusvõimalusi.
Eesti Rahvusbibliograafia (ERB) on kataloog, mis koondab üksikasjalikku informatsiooni rahvusteavikute kohta. Rahvusteavikuks loetakse raamatuid, ajalehti, ajakirju, kaarte, noote, heli- ja videosalvestisi jne, mis vastavad vähemalt ühele järgmistest tingimustest: need on kas 1) avaldatud Eestis või 2) eesti keeles, 3) eesti keelest tõlgitud, 4) Eestist pärit autorite looming või 5) peamiselt eestlasi või Eestit käsitlevad. Sisult mahub selle määratluse alla kogu trükitud eesti kultuuripärand alates Martin Lutheri kirjadest liivimaalastele kuni Marilyn Kerro numeroloogia käsiraamatuni. Tegu on väga tervikliku kataloogiga, kus on kirjeldatud üle 95% kõigist teadaolevatest teavikutest.
Lisaks terviklikkusele on andmestik ka ülimalt detailne. ERBs leidub infot mitte vaid autori, pealkirja, ilmumisaja, -koha ja kirjastuse kohta, vaid ära on märgitud ka teose lehekülgede arv ja füüsilised mõõtmed, tõlgete puhul lähtekeel ja kordusväljaannete puhul esmaväljaande info; teoses kasutatud muud keeled ja bibliograafia ning illustratsioonide olemasolu, digiteerimise aasta ja link võrguressursile; žanri-, sisu-, geograafilised ja kronoloogilised märksõnad; samuti on lisaks autorile loetletud toimetajad, illustraatorid, tõlkijad jt osalised koos eludaatumitega. Iga teaviku kirjeldamiseks on kasutatud kümneid, vahel isegi sadu andmevälju.
Ehkki ERB kultuurilooline väärtus on ilmselge, pole selle kasutamine sugugi lihtne. Esiteks hoiustatakse kataloogiandmeid MARC (machine readable cataloguing) formaadis, mis loodi varajases elektroniseerimistuhinas 1960. aastate lõpus, sai kiirelt kataloogiandmete ülemaailmseks standardiks ja on seda tänapäevani. Samas on MARC vanem kui esimesed relatsioonilised andmebaasid ning seetõttu puuduvad sellel mitmed tänapäevaste andmebaaside puhul enesestmõistetavad omadused nagu paindlikkus, seoste loomise võimalus eri kirjete vahel ning ühilduvus ajakohase andmetöötlustarkvaraga.
Teiseks vaevavad kõiki nii suure ja pika kujunemislooga andmestikke ebaühtlus ja lüngad. ERB ajalugu ulatub õigupoolest peaaegu kahe sajandi taha – selle tinglikuks alguspunktiks võib lugeda Heinrich Rosenplänteri eestikeelse kirjanduse ülevaadet 1832. aastast. Ettevalmistusi tervikliku rahvusbibliograafia koostamiseks tehti nii Eesti vabariigi kui ka Nõukogude ajal, kuid trükitud kogumikena ilmus see alles XX sajandi lõpus.1 Alates 1990ndatest eksisteerib rahvusbibliograafia ka pidevalt täieneva andmebaasina, mida haldab rahvusraamatukogu. Kuigi kataloogimisega tegelevad rahvusraamatukogus oma ala eksperdid, kes lähtuvad detailsetest juhenditest, tuleb nii pika ajalooga andmestikus paratamatult ette konarusi. Nii näiteks on mõnd andmevälja hakatud täitma varasemast erineva loogika alusel või viidud vastav info üle hoopis uuele väljale ning sageli ei ole õnnestunud selliseid muudatusi tagasiulatuvalt kogu kataloogile rakendada.
Ülaltoodud põhjustel on ERB seni olnud väljaspool raamatukogundust väga raskesti kasutatav. Digiarheoloogilistest põhjakihtidest pärinev MARC-formaat paneb koos oma krüptiliste juhenditega ka kõige osavama tänapäeva andmeteadlase kukalt kratsima ja isegi kui tal õnnestub selgust saada, põrkab ta sedamaid andmete peadpööritava keerukuse otsa. Kui andmeanalüüsi üldtuntud rusikareegli järgi kulub niikuinii 80% tööst andmete puhastamiseks ja ainult 20% analüüsimiseks, siis ERB puhul on need suhtarvud veel rohkem tasakaalust väljas. Et niivõrd väärtuslik andmestik oleks ligipääsetav kõigile huvilistele, andis rahvusraamatukogu digilabori tiim (koosseisus Laura Nemvalts, Peeter Tinits ja Krister Kruusmaa) hiljuti välja ERB raamatute kollektsioonist „kureeritud“ versiooni.2
Kureeritud andmestik on teisendatud tänapäevasesse formaati ja eeltöödeldud nii, et uurija saaks seda kohe kasutama hakata. Välja on valitud ligi 50 suurema sisulise väärtusega andmetulpa, mis on seejärel puhastatud ja standarditud. Osa tulpasid on rikastatud väliste andmetega – näiteks on ilmumiskohtadele lisatud koordinaadid ja autorid seotud globaalsete andmebaaside identifikaatoritega. Paljud ebaühtlased andmeväljad on saanud arvutuslikult analüüsitavaks (nt ilmumisaastad, lehekülgede arv, osanumber, illustratsioonide olemasolu). Nende protsesside automatiseerimiseks on loodud eraldiseisev avatud tarkvaralahendus, mis võimaldab andmestikku kureerida ka pärast uute teavikute lisandumist. Lisaks raamatutele kureeriti ka neist eraldi seisev isikutefail3, mis võimaldab leida teavikul märgitud inimeste kohta täpsemat infot (sugu, amet, lühibiograafia jne). Viimaks on raamatute ja isikute andmestikud põhjalikult dokumenteeritud, varustatud püsiva identifikaatoriga (DOI) ning kureerimistöö tulemused avaldatud eelretsenseeritud teadusajakirjas.4
Mida kureeritud andmestikuga teha saab? Kureerimise tulemusel on eeltöödeldud enam kui 313 000 raamatu ja 110 000 isiku kirjed. Ehkki kureeritud andmestik pole lõpuni veatu ja mõned kitsaskohad ootavad veel lahendamist, sobib see juba praegu suurepäraselt kvantitatiivseks analüüsiks. Näiteks on andmestiku abil võimalik visandada kultuuriloolist arengut: väljaandmistegevuse muutustes peegelduvad sellised ajaloosündmused nagu rootsiaegse Tartu ülikooli tegevus, XX sajandi sõjad ja üleminek vabaturumajandusele pärast taasiseseisvumist. Üldiselt ilmestab ERBsse kantud teavikute arvu eksponentsiaalne kasv ajas, mis on kooskõlas infokoguse üldise suurenemisega. Näiteks on viimase viie aasta jooksul ilmunud rohkem eestikeelseid raamatuid kui enne 1928. aastat kokku (üle 22 000 nimetuse).
Samuti on võimalik vaadelda keelte osakaalu muutumist Eesti aladel välja antud raamatute hulgas. Kui esimestel sajanditel oli eesti keel trükikeelte hulgas marginaalne, siis alates 1860. aastatest hakkas see seoses rahvusliku ärkamisega kasvama. Eesti keele järkjärguline tõus XIX sajandil toimus peamiselt saksa, kuid ka ladina keele arvelt, mis oli samal ajal minetamas oma tähtsust akadeemilise lingua franca’na. Poliitiliste režiimide vahetustega kaasnesid järsud nihked: pärast Esimest maailmasõda hakkas domineerima eesti keel, kuid saksa keel säilitas osaliselt oma tähtsuse; Nõukogude okupatsiooni perioodil hakkas järk-järgult domineerima vene keel; pärast taasiseseisvumist tõusis taas esile eesti keel ja teiseks keeleks kujunes kiiresti inglise keel.

Ilmumiskohad ja neile kureerimise käigus lisatud koordinaadid võimaldavad hõlpsasti saada ülevaate eesti raamatute geograafilisest levikust. See suurenes järsult XX sajandi II poolel peamiselt tänu eesti diasporaale. Näiteks anti vahemikus 1940–1991 Stockholmis teadaolevalt välja 1340 raamatut, millest üle poole on eestikeelsed ja suur osa käsitleb Eestit või eestlasi; Stockholmile järgnesid Toronto ja Lund. Kuigi suurem osa kirjastustegevusest toimus Lääne-Euroopas ja Põhja-Ameerikas, ilmus eestikeelseid ja Eesti-ainelisi raamatuid ka näiteks Venezuelas, Brasiilias, Argentinas, Lõuna-Aafrika vabariigis, Jaapanis ja mujal.
Žanrimärksõnade abil saab piiritleda analüüsi valitud žanriga. Näiteks on võimalik hõlpsasti kindlaks teha, et Eesti kõige populaarsem lastekirjanik läbi aegade on olnud Astrid Lindgren, kelle raamatuid on kokku välja antud 128 korda. Järgnevad Leelo Tungal ja vennad Grimmid kumbki 116 väljaandega, Heljo Mänd (107 väljaannet) ja Hans Christian Andersen (96 väljaannet). Enim trükitud lasteraamatud on aga Antoine de Saint-Exupéry „Väike prints“, Oskar Lutsu „Nukitsamees“, Charles Perrault’ „Saabastega kass“, Hans Christian Anderseni „Pöial-Liisi“ ja vendade Grimmide „Punamütsike“. Kuna ERB koondab ka eesti autorite teoseid teistes keeltes, saame samuti luua enim tõlgitud eesti lasteraamatute edetabeli: Eno Raua „Naksitrallid“ (tõlgitud 12 keelde), Silvi Väljali „Jussikese seitse sõpra“ (11 keelde), Eno Raua „Sipsik“ ja Ellen Niidu „Pille-Riini lood“ (kumbki 9 keelde).
Raamatute sisust kõnelevad nii sisumärksõnad kui ka UDK ehk rahvusvahelise kümnendliigituse koodid (numbrid, millel põhinevad ka kohaviidad raamatukogudes). Lisaks üldistele sisumärksõnadele on ERBs eristatud ka koha-, aja- ja isikumärksõnad juhuks, kui raamatu aines keskendub mõnele piirkonnale, perioodile või inimesele, nt reisikirjade, ajalooraamatute ja biograafiate puhul. Tänu sellisele detailsusastmele on võimalik läbi viia ka erialaspetsiifilisi analüüse. Näiteks on historiograafilise huvi korral võimalik vaadelda, milliste perioodide kohta on eestikeelseid ajalooraamatuid läbi aegade kirjutatud. Tuleb välja, et kaugelt kõige enam on raamatuid trükitud II maailmasõja ja XX sajandi kohta, kuid näha on ka 1930. aastate vaimustust Rootsi ajast, nõukogudeaegset fookust XIX sajandi talurahva ajalool ning huvi ajaloo kõigi perioodide vastu 1990.–2000. aastatel, kui minevikust võis viimaks taas vabalt kõneleda.
Viimaks on andmestiku põhjal võimalik teha ka keerukamaid analüüse. Muu hulgas on võimalik moodustada kirjetes esinevatest inimestest võrgustik, kus isikuid seovad koos avaldatud teosed ja sellega saada selgust, millised autorid, kujundajad, toimetajad ja tõlkijad on koos töötanud. Sellise võrgustiku alusel saab omakorda läbi viia arvutuslikke analüüse, näiteks leida võrgustikus kõige kesksemal positsioonil olevad isikud. Nii on rahvusliku ärkamisaja kirjastusvõrgustikus kõige kesksematel kohtadel baltisakslastest estofiilid, kes toimisid sillana siinse eesti ja baltisaksa kirjarahva vahel. Silma paistab ka Friedrich Reinhold Kreutzwald nii oma isikliku võrgustiku suure mitmekesisuse kui ka selles olevate inimeste mõjukuse poolest. ERB andmetel põhineb ka interaktiivne eesti tõlkekirjanduse võrgustik, mis kasutab eesti ilukirjanduse tõlkeajaloo uurimisel autorite ja tõlkijate vahelisi seoseid ning andmeid keele ja ilmumisaja kohta.5
Kirjeldatud näidete kohta on võimalik pikemalt lugeda rahvusraamatukogu digilabori blogist.6 ERB potentsiaal pole nendega aga kaugeltki ammendunud ja andmed ootavad uusi kasutajaid. Lisaks on digilaboril plaanis avaldada kureeritud versioon ka teistest rahvusbibliograafia osadest, s.t ajalehtedest, kaartidest, helisalvestistest jne. Kuna ERB on olemasolevatest eesti kultuuriandmestikest üks kõnekamaid, meelitab see uuel ja ligipääsetaval kujul loodetavasti ligi palju kultuuri- ja andmehuvilisi, olgu nad teadlased või asjaarmastajad.
1 Endel Annus (toim), Eestikeelne raamat 1901–1917. Eesti Teaduste Akadeemia 1993.
Endel Annus (toim), Eestikeelne raamat 1851–1900. Eesti Teaduste Akadeemia Raamatukogu 1995.
Endel Annus (toim), Eestikeelne raamat 1525–1850. Eesti Teaduste Akadeemia Kirjastus 2000.
2 Kureeritud ERB andmestik on allalaetav siit:
3 ibid.
4 Krister Kruusmaa, Peeter Tinits, Laura Nemvalts, Curated Bibliographic Data: the Case of the Estonian National Bibliography. – Journal of Open Humanities Data 2025, 11.
5 Krister Kruusmaa, Eesti tõlkekirjanduse võrgustik. Eesti rahvusraamatukogu digilabor.
6 Eesti rahvusraamatukogu digilabori blogi