Slovarji bodo v prihodnosti obsežne baze podatkov

Sodobna leksikografija: Nanjo močno vpliva digitalna preobrazba – Skrb za ohranitev majhnih jezikov

Objavljeno
14. avgust 2018 12.00
Posodobljeno
14. avgust 2018 15.28
Na kongresu so predstavili dva nova odprto dostopna spletna slovarja sodobne slovenščine, kolokacijski slovar in slovar sopomenk, ki sta nastala pod okriljem Centra za jezikovne vire in tehnologije Univerze v Ljubljani. FOTO: Shutterstock
Mojca Vizjak Pavšič
Mojca Vizjak Pavšič
»V mednarodnem leksikografskem prostoru so se zadnja leta zaradi hitrega razvoja informacijsko-komunikacijskih tehnologij zgodile velike spremembe, saj smo bili priča prehodu s slovarjev, izdelanih za tisk, na slovarje, ki so že v temelju zasnovani za digitalno okolje,« poudarja dr. Simon Krek, predsednik programskega in organizacijskega odbora 18. mednarodnega kongresa Euralexa, ki je bil pred kratkim v Ljubljani.

Osrednja tema kongresa Leksikografija v globalnem okolju je pritegnila več kot dvesto udeležencev z vsega sveta, v sodelovanju z evropskim leksikografskim združenjem Euralex pa sta ga organizirala Center za jezikovne vire in tehnologije v Ljubljani in zavod za uporabno slovenistiko Trojina. O nekaterih najbolj aktualnih vsebinah kongresa smo se pogovarjali z dr. Andreo Abel, predsednico združenja Euralex in vodjo Inštituta za uporabno lingvistiko na Evropski akademiji v Bolzanu, dr. Simonom Krekom, ki je vodja Centra za jezikovne vire in tehnologije Univerze v Ljubljani ter raziskovalec v Laboratoriju za umetno inteligenco na Institutu Jožef Stefan, in dr. Iztokom Kosmom, vodjo nacionalnega raziskovalnega projekta Kolokacije v slovenščini in raziskovalcem pri mednarodnem projektu Elexis.


Kakšna je vloga leksikografije v sodobnem globalnem okolju?


Andrea Abel: V združenju Euralex, ki je vodilna strokovna organizacija na področju slovaropisja, v zadnjih letih opažamo, da moramo združiti svoja prizadevanja na globalni ravni, saj spoznavamo, da osredotočenost na evropske jezike in tehnologije, ki jih razvijamo v Evropi, ne zadostuje za reševanje čedalje bolj zapletenih leksikografskih problemov. Tako je bila na konferenci eLex leta 2015 v Angliji dana pobuda za ustanovitev svetovnega združenja leksikografov Globalex, ki sedaj uspešno povezuje pet kontinentalnih leksikografskih združenj, se pravi Afrilex za Afriko, Asialex za Azijo, Australex za Avstralijo, Severnoameriško slovarsko združenje DSNA za Ameriko in Euralex za Evropo.

Na leksikografski svet danes močno vpliva digitalna preobrazba, ki je seveda tudi globalni izziv. Tako ali drugače se moramo vsi ukvarjati z digitalnim okoljem, digitalnimi orodji, digitalnimi oblikami podatkov – skratka, brez digitalnih virov danes ne moremo več resno delati kot leksikografi. To je pred nedavnim spoznala tudi evropska komisija, ki je ugotovila, da so vlaganja v razvoj digitalne infrastrukture izjemno pomembna, in za to področje tudi namenila precejšnja finančna sredstva.

Na leksikografski svet danes močno vpliva digitalna preobrazba, ki je seveda tudi globalni izziv. Tako ali drugače se moramo vsi ukvarjati z digitalnim okoljem, digitalnimi orodji, digitalnimi oblikami podatkov – skratka, brez digitalnih virov danes ne moremo več resno delati kot leksikografi.
Andrea Abel


V digitalnem svetu močno prevladuje angleščina, zelo razširjeni sta še španščina in kitajščina. Kakšna so prizadevanja, da bi bilo tudi virtualno okolje bolj jezikovno raznoliko in enakopravno?


Poleg izredno pomembnega evropskega projekta Elexis, katerega namen je zgraditi sodobno leksikografsko infrastrukturo za vse evropske jezike, vodi ga pa dr. Krek, je na kongresu v Ljubljani Judy Pearsall, direktorica oddelka za slovarje pri založbi Univerze Oxford, predstavila program Oxford Global Languages, katerega cilj je, da bi razvili več kot sto slovarjev za jezike, ki imajo zelo skromne digitalne vire ali pa jih sploh nimajo. Kot je dejala, je projekt neprofiten, najprej pa bodo razvili slovarje za nekatere afriške in azijske jezike.
Menim, da majhni jeziki, jeziki manjšin in jeziki, ki imajo slabo razvito digitalno infrastrukturo, potrebujejo posebno zaščito. Ena od pomembnih nalog Euralexa je tudi skrb za jezikovno raznolikost in ohranitev majhnih jezikov.


Kakšen bo slovar prihodnosti?


Simon Krek: Kot smo videli na kongresu, slovarji v bistvu ne bodo več slovarji, temveč bodo obsežne baze podatkov, se pravi, to ne bodo zgolj na spletu objavljeni knjižni slovarji. Digitalno okolje namreč omogoča popolnoma drugačno strukturiranje podatkov kot knjižna izdaja, poleg tega pa ne postavlja nobenih omejitev glede količine vnosa informacij.

Na slovarje ne bomo mogli več v nobenem smislu gledati kot na linearno besedilo, ampak kot na kose informacij, ki so leksikalne narave in ki jih glede na uporabnikove potrebe nato izločamo iz te baze. Če je uporabnik učitelj ali otrok, ki se uči jezik, gre za nekaj povsem drugega, kot če je uporabnik strokovnjak, ki bi rad izvedel nekaj o standardni različici jezika.

Digitalizacijo zgodovinskega gradiva je med drugimi omogočil evropski mehanizem Povežimo Evropo, v okviru katerega poteka financiranje Europeane.
Simon Krek


Ena od značilnosti digitalnih slovarjev je tudi povezanost z drugimi spletnimi jezikovnimi viri.


Slovarske baze bodo med seboj povezane prek skupnih konceptov, tako da o bazi slovenskega jezika ne bo več mogoče govoriti kot o neki izolirani enoti, ki opisuje samo slovenski svet, ampak bo hkrati opisovala cel svet. Če rečemo na primer neki stvari stol, bo mogoče izgledala drugače nekje drugje, ampak osnovni koncept stola ostane isti.


Spletni slovar bo v prihodnosti le eden od pomembnih virov v mnogo širšem digitalnem ekosistemu, saj bo povezan s številnimi drugimi viri, kot so leksikoni besednih oblik, različni korpusi govorjenega in pisnega jezika, Wikipedija, baze posnetega govora in slovarji znakovnega jezika.


Znani danski jezikoslovec Lars Trap-Jensen, ki je v svojem plenarnem predavanju govoril o korpusni revoluciji, je navedel podatek, da sodi danes med največje korpuse v svetu nemški, ki obsega več kot 5 milijard besed, velik je tudi angleški Collinsov korpus, ta jih ima 4,5 milijarde, Googlov korpus besedil, ki so jih digitalizirali za projekt Google Books in obsega 500 milijonov knjig v več svetovnih jezikih od leta 1500 do danes, pa vsebuje celo 175 milijard besed.


Koliko jih obsega korpus slovenskega jezika?


Iztok Kosem: Trenutno največji korpus slovenskega jezika, Gigafida, vsebuje 1,2 milijarde besed, vendar pri tem ne gre le za številke, ki so včasih tudi zavajajoče. Veliko bolj pomembno je, kakšna je strukturiranost korpusa, ali se sproti posodablja in kakšen je njegov namen.

image
Tudi slovarji se spreminjajo. Spletni slovarji bodo v prihodnosti povezan s številnimi drugimi viri. FOTO: Blaž Samec


Za opis jezika je pomembno, da imamo celotno sodobno besedilno produkcijo v slovenščini dostopno na ta način, pri tem pa smo pozorni predvsem na časovno in strukturno uravnoteženost, kar pomeni, da vsebuje korpus približno enakovredne deleže leposlovnih, časopisnih in drugih besedil, kar daje precej realno sliko o sodobni slovenščini.


Simon Krek: Za jezikovni opis starejše slovenščine pa bi morali izdelati zgodovinski korpus in slovar, za kar bi bilo treba digitalizirati vse knjige, ki jih hranijo Narodna in univerzitetna knjižnica in drugi arhivi v Sloveniji vse od leta 1550 naprej.

To delo se je že začelo, vendar ne samo na našo pobudo, temveč je digitalizacijo zgodovinskega gradiva med drugim omogočil evropski mehanizem Povežimo Evropo (Connecting Europe Facility), v okviru katerega poteka financiranje Europeane, ki pa ni le evropska digitalna knjižnica, temveč je njeno poslanstvo tudi digitalizacija knjižne kulturne dediščine po vseh državah Evropske unije.

Trenutno največji korpus slovenskega jezika, Gigafida, vsebuje 1,2 milijarde besed, toda pri tem je pomembno predvsem, kakšna je strukturiranost korpusa, ali se sproti posodablja in kakšen je njegov namen.
Iztok Kosem


Na kongresu je veliko pozornost udeležencev vzbudila tudi predstavitev obeh novih spletnih slovarjev sodobne slovenščine, kolokacijskega slovarja in slovarja sopomenk, ki sta nastala pod okriljem Centra za jezikovne vire in tehnologije Univerze v Ljubljani.


Iztok Kosem: Slovar sopomenk sodobne slovenščine je na spletu brezplačno dostopen že nekaj mesecev in so ga uporabniki zelo dobro sprejeli. Slovar, ki vsebuje najobsežnejšo odprto dostopno avtomatično generirano zbirko sopomenk za slovenščino, je nastal z naprednimi računalniškimi metodami, ki so inovativne tudi v mednarodnem leksikografskem prostoru.

Kolokacijski slovar sodobne slovenščine pa bo uradno izšel oktobra in je prav tako velik korak v nadaljnji digitalni opremljenosti slovenskega jezika. Kolokacije, ki so najbolj tipične sopojavitve besed, odražajo naravno vsakodnevno uporabo jezika. Jezik se nenehno spreminja, sodobna metodologija pa nam zdaj omogoča, da se spremembe v jezikovni rabi hitro zaznajo in vključijo v slovar. Oba slovarja smo poimenovali odzivna slovarja, saj se po eni strani odzivata na spremembe v jezikovni rabi, po drugi pa omogočata napredno vključevanje znanja in mnenj uporabnikov.