Trubar, Dalmatin in drugi iz New Delhija

Od danes je prosto dostopen korpus besedil slovenskih protestantskih piscev, prepis 45 knjižnih del na 12.945 straneh.
Fotografija: »Vsa besedila so vsem na voljo brezplačno,  prav kakor bi si želel Trubar,« pravi Kozma Ahačič. Foto Roman Šipić
Odpri galerijo
»Vsa besedila so vsem na voljo brezplačno,  prav kakor bi si želel Trubar,« pravi Kozma Ahačič. Foto Roman Šipić

Katekizem, Hišna postila, Cerkovna ordninga, Dalmatinova Biblija – vse to so naslovi knjig, ključnih za razvoj slovenskega jezika, ki jih znamo našteti bolj ali manj vsi. Koliko pa vas je katero od teh del kdaj prebralo? Vsaj kakšen odlomek? Na predvečer dneva reformacije bi se to res spodobilo ... Tak je začetek nagovora, ki so ga namenili javnosti na Inštitutu za slovenski jezik Frana Ramovša ZRC SAZU. Strokovnjaki z inštituta imajo tudi odgovore na ta vprašanja. Dovolj bo nekaj klikov.

x
x
Tokrat, pravijo na inštitutu, nimate več izgovora, da so temeljna dela slovenskih reformatorjev raztreščena po evropskih knjižnicah od Tübingena do Münchna in Dunaja, ker so po zaslugi indijskih strokovnjakov odslej le nekaj klikov od vas. Na predvečer dneva reformacije je namreč na portalu Fran dostopna spletna stran fran.si/korpus16 s prepisi del slovenskih protestantskih piscev Korpus 16 – korpus besedil slovenskih protestantskih piscev 16. stoletja.
 

Dvojni prepis, opravljen v Indiji


Začetek prepisovanja del slovenskih protestantskih piscev sega v leto 2010, je povedal Kozma Ahačič, predstojnik Inštituta za slovenski jezik Frana Ramovša ZRC SAZU in strokovnjak za jezik slovenskih protestantskih piscev v 16. stolet­ju. Razen prepisa svetopisemskih knjig Biblije Jurija Dalmatina (1584, brez spremnih besedil), ki jih je odstopila Svetopisemska družba Slovenije, so za vse poskrbeli v Indiji, in sicer v podjetju CyberData India iz New Delhija.

Prepis prepisovalcev, ki ne razumejo besedila, ima po besedah Kozme Ahačiča pomembno metodološko ­prednost: če se pojavijo napake, te niso logične, in zato jih je lažje odkriti. Fotografije ZRC SAZU
Prepis prepisovalcev, ki ne razumejo besedila, ima po besedah Kozme Ahačiča pomembno metodološko ­prednost: če se pojavijo napake, te niso logične, in zato jih je lažje odkriti. Fotografije ZRC SAZU


»Ne, ne gre za poceni delovno silo,« je Ahačič vnaprej pregnal predsodke in pomisleke, »ti, ki so delali prepis, so povsem v redu plačani. In imajo zelo razvito tehnologijo.« Na vprašanje, kako, v kakšni obliki so »nabavili« vire za prepis, kako je potekalo sodelovanje s knjižnicami, ki hranijo izvirnike, in v kakšni obliki so dobili material, je Ahačič za Delo odgovoril: »Viri so že bili dostopni v obliki fotokopij v Sekciji za zgodovino slovenskega jezika Inštituta za slovenski jezik ZRC SAZU, kjer priprav­ljamo Slovar slovenskega knjižnega jezika 16. stoletja. Njihovo zbiranje je bilo prav tako velik projekt, ki je zahteval več let: nekatera besedila lahko šele 'sestavimo' iz izvodov, ohranjenih v različnih knjižnicah po Evropi.«

Korpus besedil slovenskih protestantskih piscev 16. stoletja obsega prepise 45 knjižnih del na 12.945 straneh. Delo je potekalo v več fazah; najprej ročni prepis besedil s pomočjo indijskega podjetja CyberData India po metodi dvojnega prepisa (dva prepisovalca prepišeta enako besedilo, tretji uskladi mesta, na katerih je prepis različen). Druga faza dela je obsegala pregledovanje prepisov, ki je potekalo primerjalno z besedilnimi viri.

»Aplikacije za optično prepoznavanje znakov bi morali naučiti zakonitosti vsake knjige posebej, saj se tiski razlikujejo,« pravi Kozma Ahačič.
»Aplikacije za optično prepoznavanje znakov bi morali naučiti zakonitosti vsake knjige posebej, saj se tiski razlikujejo,« pravi Kozma Ahačič.


Tretja faza je obsegala pretvorbo preprostih oznak xml v format označevalnega jezika xml TEI, ki omogoča večjo povezljivost in lažje strojno branje besedil, predvsem pa je primeren za kodiranje raznolikih struktur humanističnih besedil.
 

Korist indijskih prepisovalcev


»Tako pripravljena besedila so objavljena kot korpus na spletni strani, ki ima poleg korpusne izo­braževalno funkcijo, saj si lahko na enem mestu pregledno ogledamo tako rekoč celotno slovensko knjižno produkcijo 16. stoletja,« je povedal Ahačič, ki je bil tudi glavni urednik, področni urednici pa Andreja Legan Ravnikar (prepisi) in Alenka Jelovšek (xml), obe prav tako z Inštituta za slovenski jezik Frana Ramovša ZRC SAZU.

Pri delu sta sodelovali tudi podjetji Amebis (pripravilo je spletno stran ter iskalnik) in Alpineon.

Na enem mestu si je odslej mogoče pregledno ogledati tako rekoč celotno slovensko knjižno produkcijo 16. stoletja.
Na enem mestu si je odslej mogoče pregledno ogledati tako rekoč celotno slovensko knjižno produkcijo 16. stoletja.
Na laično vprašanje, zakaj računalniška orodja oziroma aplikacije za optično prepoznavanje znakov (OCR) pri tem niso bili uporabni, je Ahačič dodal: »Težava je, da zaradi specifičnosti tiskov težko preberemo vse črke že s prostim očesom brez določenega znanja. Aplikacije za optično prepoznavanje znakov bi poleg tega morali naučiti zakonitosti vsake knjige posebej, saj se tiski razlikujejo. Ker se znotraj tiskov razlikujeta tudi narava in intenzivnost odtisa posameznih črk, se je pokazalo, da je napak glede na vložen trud nesorazmerno veliko.

Prepis besedil so opravili s pomočjo indijskega podjetja CyberData India. Foto Roman Šipić
Prepis besedil so opravili s pomočjo indijskega podjetja CyberData India. Foto Roman Šipić


Tak poskus smo naredili s Trubarjevim Evangelijem sv. Matev­ža iz leta 1555. Optična prepoznava je uspešnejša šele pri poznejših tiskih. Poleg tega ima prepis, ki ga opravijo prepisovalci, ki besedila ne razumejo, pomembno metodološko prednost: če se pojavijo napake, te niso logične, in zato jih je lažje odkriti. Ker smo imeli izredno malo sredstev, je vse to predstavljalo prednost, saj je bilo pregledovanje dražje od prepisovanja. Si pa takšnega prepisovanja ne smemo predstavljati srednjeveško: to je računalniško močno podprt in avtomatiziran proces.«
 

Zastonj – kakor bi si želel Trubar


Prepisana dela protestantskih piscev obsegajo 12.945 strani. Foto Matej Družnik
Prepisana dela protestantskih piscev obsegajo 12.945 strani. Foto Matej Družnik


V Fran že vključeno Besedje slovenskega knjižnega jezika 16. stoletja je bilo zbrano s popolnim izpisom slovenskega besedila iz 53 del. Je bil ta opus lahko v pomoč zdajšnjemu prepisu? Ahačič: »Seveda, pri razbiranju težje berljivih mest bi bili brez predhodnega dela nemočni. Ob tem se zavedamo, da bomo še našli napake (seveda ne štejejo napake, ki so jih naredili v izvirniku; te bodo ostale, saj jih ne smemo popravljati). Vzpostavili smo sistem, da jih bomo sproti ­registrirali in čim bolj tekoče ­odpravljali.«

Veliko uporabnost ima <em>Korpus 16</em> za raziskovanje slovenščine in slovenske književnosti.
Veliko uporabnost ima Korpus 16 za raziskovanje slovenščine in slovenske književnosti.
Zakaj se tega spletišča lahko upravičeno veselimo in ga pozdrav­ljamo kot nekaj, kar nam je vsem v blagodat? »Sodobnega Slovenca bo zanimala naslovnica knjige: kaj je bilo napisano, kdo je kaj napisal itd. Če bomo iskali kak citat, ga bomo zdaj brez težav našli z iskalnikom. V šolah bodo lahko učitelji izbrali poljuben odlomek in ga natisnili,« je povedal Ahačič. Veliko večjo uporabnost ima Korpus 16 za raziskovanje slovenščine in slovenske književnosti. Z zgodovino slovenskega jezika se bomo zdaj še lažje ukvarjali digitalno, dostopnost teh del pa ne bo več problem. Še nekaj velja poudariti, je opozoril Ahačič: »Vsa besedila so vsem na voljo brezplačno; prav kakor bi si želel Trubar.«

Komentarji: