Jezikovno infrastrukturo potrebujemo kakor vodo

Jezik in digitalizacija - Slovenščina je eden od uradnih jezikov Evropske unije, zato so naša pričakovanja upravičeno velika.
Objavljeno
07. marec 2013 16.04
Tomaž Švagelj, Znanost
Tomaž Švagelj, Znanost

O tem, kaj so jezikovne tehnologije, kateri njihovi moduli manjkajo pri slovenščini, kakšno je razmerje med samodejnim razpoznavanjem govora na eni in avtomatskim tvorjenjem govora iz slovensko napisanih besedil na drugi strani, kolikšen je slovenski besedilni korpus v primerjavi s poljskim in o drugih zanimivostih govori dr. Simon Krek, raziskovalec na Institutu Jožef Stefan in v podjetju Amebis. 

Začniva z zbirno stranjo Sporazumevanje v slovenskem jeziku. To je lep dosežek.

Hvala. Gre za projekt, ki je skoraj končan, zaključi se letos.

No, ampak stvari, ki so tam že zdaj, čeprav pri njih seveda še veliko manjka, v bistvu že spadajo k jezikovnim tehnologijam, ki podpirajo male ogrožene jezike.

Rezultati so bili zasnovani tako, da bi se slovenščina približala temu, kar drugi že imajo.

Denimo Nizozemci?

No, do tam nam še veliko manjka. Gre bolj za to, kar imajo Slovaki, Estonci, Litovci, Latvijci.

Pri teh tehnologijah ne gre le za strojno prevajanje in podobne stvari, temveč k njim spada že navaden črkovalnik, ali ne?

Vsekakor. Sicer je pa zadeva načeloma dokaj preprosta: računalnik mora sprocesirati jezik, v tem primeru slovenščino. Pri vseh jezikih je treba začeti čisto od začetka, kar pomeni, da mora računalnik najprej prepoznati, kaj sploh je beseda, kaj ločilo in podobno. Če prepozna besedo, je dobro, da ve, kakšna je njena osnovna oblika, katere so lastnosti, ali gre za samostalnik in to, katerega spola je. Potem lahko gremo naprej, ugotovimo na primer, ali je ustrezen zapis besed ali skladnja stavka. Črkovalniki in slovnični moduli so med tipičnimi jezikovnotehnološkimi aplikacijami.

Za slovenščino črkovalnik imamo, toda Amebis ga je naredil samo za Microsoftova Okna. Kdaj bomo dobili še različico za Applov Mac OS X?

Obstaja tudi črkovalnik v paketu OpenOffice, svojega ima Google. Pričakujemo, da bodo te stvari šle »v oblak«, to je na internet, kjer bo dosegljiv tudi črkovalnik za macintosh, in sicer v podobnih servisih, kot sta denimo Google Docs ali Microsoftov SkyDrive. V resnici torej ne boste vedeli, kje je vaš dokument: v vašem računalniku ali nekje na internetu, vendar to niti ne bo pomembno. Tovrstne storitve so se prijele v trenutku, ko je bilo zagotovljeno, da so naše datoteke tam razmeroma varne, do njih pa dostopamo prek različnih naprav.
Pri slovenščini gre predvsem za slovnični pregledovalnik, ta je bolj problematičen. Drugi jeziki so tu že precej napredovali, mi pa imamo predvsem črkovalnike in Besano, program za besedno analizo.

Pa saj imamo pri avtomatskem prepoznavanju in razumevanju govora pa avtomatskem tvorjenju govora iz slovensko napisanih besedil že tudi nekaj, ali ne?

To sta dve zelo različni tehnologiji. Ena je bistveno lažja od druge. Sinteza govora je nekje na ravni, na kateri so tudi drugi s slovenščino primerljivi jeziki, konkretno sta to programa Govorec in Proteus. S tem se ukvarjata podjetji Amebis in Alpineon v sodelovanju z Institutom Jožef Stefan oziroma z ljubljansko Fakulteto za elektrotehniko, toda ključno je, da je tehnologija na voljo. Zdaj jo uporabljajo na RTVS ter slepi in slabovidni pa še kje.

Ta tehnologija je torej manjši problem, večji problem je drugi del: razpoznava govora, ki je bistveno zahtevnejša.

Razpoznava pomeni, da jaz govorim, računalnik pa sam piše besedilo, kajne?

Tako je. Če bi tule na mizi imela monitor, bi se nanj sproti izpisovalo, kar govoriva.

To bo krasno, zlasti za novinarje.

Saj to že imajo, pa ne samo za angleščino, temveč tudi za nemščino, francoščino, nizozemščino.

Kdaj bomo na vrsti mi? To je najbrž odvisno od denarja.

Pa ne v smislu, da ga je treba na novo investirati, ampak da obstoječa sredstva uporabljamo za razvoj jezikovnih virov in tehnologij v racionalnem sosledju, ki ga nekdo določi. V našem primeru sta to država oziroma sedanje superministrstvo in ARRS, javna agencija za raziskovalno dejavnost. Ministrstvo določa proračun, ARRS pa skrbi za razdelitev denarja na posamezne projekte, programe itd. In tisto, kar, vsaj jaz, najbolj pogrešam, je to, da bi pri jezikovnih virih in tehnologijah obstajal neki načrt, po katerem bi se predvsem najprej vedelo, kaj že obstaja in kaj je treba še narediti.

Zdaj se kaže možnost, da bi lahko do tega morda prišli prek nove resolucije o jezikovni politiki. Prejšnja se je iztekla konec leta 2011. Z lanskim januarjem bi morali dobiti novo, pa je še vedno nimamo. Trenutno je, če sem prav obveščen, v medresorskem usklajevanju. A bo tudi takrat, ko bo sprejeta, veljala najbrž samo še kakšni dve ali tri leta, namreč do 2016., v tako kratkem času pa se ne da kaj dosti narediti.

Veliko bi že bilo, če bi sprejeli vsaj podprogram za jezikovno opremljenost. V enem letu bi lahko pregledali vse, kar obstaja, in naredili načrt o naslednjih stopnjah, da bi morda v naslednji resoluciji to tako ali drugače uresničili. Pri razvitejših evropskih jezikih so to naredili že okrog leta 2002, 2003.

Kdo med Slovani je najboljši?

V zahodnem delu slovanskega sveta so prvi Čehi, res pa je, da se je nedavno uspelo Poljakom izjemno dobro organizirati. In ker jih je toliko, gre njihov razvoj zelo hitro naprej.

Zaradi svoje številčnosti imajo zagotovo tudi zelo velik besedilni korpus.

No, mi imamo enako velikega.

Enako?! Tega si pa ne bi nikoli mislil, saj jih je skoraj 20-krat več kot nas. Potem pa le nismo tako slabi.

Na določenih točkah nismo, imamo pa, kot rečeno, nekatere velike praznine, ker ni nobenega pravega načrta in povezovalnega elementa. Zanj bi po mojem morala poskrbeti država, to kažejo tudi izkušnje drugih: razpršenost, izgubljanje virov, ki že obstajajo, itd.

Pri nas imamo Inštitut za slovenski jezik Frana Ramovša pri ZRC SAZU, ki bi načeloma moral skrbeti za vse, kar se tiče slovenščine. Na inštitutu imajo seveda tradicionalno znanje in vire, kot so recimo zgodovinski, terminološki in drugi slovarji, pri sodobnih digitalnih jezikovnih virih in jezikovnih tehnologijah pa jih kratko malo ni.

Toda ali se ni Primož Jakopin v inštitutskem laboratoriju za korpus slovenskega jezika s tem veliko ukvarjal?

Da, to je bil zametek. Dr. Jakopin je zdaj v pokoju, toda večji problem je, da je bil edini, take stvari pa morajo delati skupine, ne le posameznik.

Če nimaš trdnega temelja, okoli katerega gradiš, se zadeve razpršijo: zdaj je nekaj na Fakulteti za elektrotehniko, nekaj na Filozofski fakulteti, na Institutu Jožef Stefan, nekaj na FERI v Mariboru, ampak vsak obdeluje zgolj svoje področje, sodelovanja in usklajevanja pa ni dovolj.

Mogoče se celo kaj podvaja, morda dva delata isto, pa tega sploh ne vesta!

Tudi to se lahko zgodi. Po mojem mnenju je usklajen in dobro načrtovan razvoj temeljni problem področja, imenovanega jezikovni viri in tehnologije za slovenščino. Ker je oboje povezano. To so aplikacije kot označevalniki, razčlenjevalniki, strojni prevajalniki itd. Ta softver pa nujno potrebuje tudi jezikovne vire, kot so slovarji, korpusi itd.

Brez korpusov ni nič, ker tovrstne aplikacije temeljijo na statistiki.

Tako je, ampak to je samo ena komponenta. Druga pomembna sestavina so viri, ki jih nekdo izdela, po možnosti na čim bolj avtomatski način, denimo slovar, primeren za računalniško prepoznavanje pomenov besed.

Računalniki danes v angleških besedilih namreč že prepoznavajo pomen besed. Tudi to, o kom je govor, da se ve, da gre za isto osebo tudi tam, kjer so uporabljeni zaimki, ali v stavkih, v katerih ta oseba sploh ni omenjena. Znotraj tako imenovanega semantičnega spleta je ista oseba povezana z nekim identifikatorjem, s pomočjo katerega lahko potem zberemo vse podatke o tem, kje se je kakorkoli govorilo o človeku, identificiranem na ta način.

To mora računalnik pač obvladati. Pa ne le to, temveč bo moral prepoznati tudi pomen vsake besede, na katero med procesiranjem besedila naleti. In poleg prepoznavanja ljudi, institucij in podobno bo moral pravilno interpretirati časovne izraze, torej razumeti, kdaj se je kaj dogajalo v odnosu do sedanjega trenutka, itd.

Kako lahko računalnik, recimo v stavku Včeraj ob dvanajstih sta trčila itd., ve, ali gre za nepričakovano srečanje dveh ljudi, za prometno nesrečo ali za veselo nazdravljanje s kozarcema? Le iz sobesedila, kajne?

Tako je. V tem smislu je to zelo podobno kot pri ljudeh. Saj tega tudi mi ne vemo vnaprej. Če zdajle rečem »trčiti«, ne boste vedeli, kaj sem s tem mislil. To lahko razjasni le situacija, kontekst.

Te stvari je treba, kot rečeno, razviti za vsak jezik posebej. In Evropa pričakuje, da bodo posamezne države poskrbele za svoje jezike.

Pa je za to pripravljena prispevati tudi kaj denarja?

Je, zagotovo, res pa je tudi, da zelo nerazvit težko vstopaš v razvito okolje. Podporo za jezik je treba že lokalno prignati tako daleč, da si lahko v teh evropskih infrastrukturah sploh enakovreden partner. In ker je slovenščina eden od uradnih jezikov Evropske unije, so ta pričakovanja še toliko večja – drugačna kot recimo pri furlanščini, galicijščini in podobnih.

V zvezi s tem je treba omeniti predvsem evropsko raziskovalno infrastrukturo Clarin. Ta povezuje nacionalne centre, ki skrbijo za nacionalne vire.

To je take, kakršnega pri nas še ni.

Da. In za nas je to značilna zamujena priložnost. Prvi del projekta, za obdobje med letoma 2008 in 2011, je namreč financirala evropska komisija. Za drugi del pa je bilo rečeno takole: prvi del je bil financiran, lahko ste se ustanovili, od tu naprej pa si morate pomagati sami. In če se bomo zdaj včlanili v Clarin, bomo to storili brez deleža, ki je bil takrat na razpolago, zahteve pa zaradi tega za nas ne bodo nič manj stroge kot za druge. Skratka, zaradi naše neorganiziranosti zamujamo veliko priložnosti, tudi finančnih.

Pa še nekaj o META-Netu. Kaj to sploh je?

To je mreža odličnosti, Multilingual Europe Technology Alliance. V bistvu gre za obliko financiranja evropskih raziskovalnih projektov. Njihov cilj je predvsem vzpostaviti medsebojno sodelovanje med raziskovalci na ravni Evrope, ta mreža pa je bila namenjena jezikovnim virom in tehnologijam. Glavni cilj je bil raziskati in predstaviti stanje pri posameznih jezikih. Tako podrobnih analiz doslej še ni bilo.

Evropsko financiranje poteka prek tako imenovanih okvirnih programov. Zdaj se končuje sedmi, začenja pa se osmi, ki se imenuje Horizon 2020, torej Obzorje 2020.

Projekt META-Net je bil na neki način namenjen tudi temu, da bi evropska komisija lažje presodila, kaj je treba financirati v naslednjem programu. Novo je, da bodo jezikovne tehnologije in jezikovni viri prešli iz bolj raziskovalne v bolj infrastrukturno sfero – kar se je deloma že zgodilo. S tem naj bi vse države, če govorimo o celotnem področju informacijsko-komunikacijskih tehnologij, dvignili na raven, na kateri ima dovolj velik del prebivalcev dostop do interneta. Poleg tega morajo biti vsem prebivalcem unije na voljo podobne storitve, kar seveda velja tudi za jezikovne.

Številčno majhni narodi smo tudi v materialnem pogledu na slabšem od velikih.

Seveda, pri malih jezikih se je treba obnašati veliko bolj racionalno kot pri velikih. Vzemimo na primer Nemčijo, kjer imajo 50 centrov, ki se ukvarjajo z jezikovnimi viri in tehnologijami. Ta razvije nekaj, oni tudi itd., in se potem tisto, kar je razvil prvi, izkaže za slabše kot tisto, kar je razvil drugi. In njegova stvaritev pač potone, čeprav je šlo zanjo nekaj denarja, vendar si oni to lahko privoščijo, mi pa ne. Mi lahko samo rečemo, aha, tole je neka tehnologija, ki je očitno prestala test. Implementirati jo moramo v slovenščini. Ne pa preizkušati sto različnih! Za kaj takega nimamo ne časa ne denarja.

Za konec se na kratko vrniva na začetek. Kako bo s Sporazumevanjem v slovenskem jeziku?

Projekt se konča letos jeseni, nadaljnje financiranje ali sploh vzdrževanje rezultatov pa ni zagotovljeno. Torej spletna stran lahko ugasne že naslednji dan! Da bi obstajala naprej, bi bilo koristno za vse, saj je del jezikovne infrastrukture za slovenski jezik. Nekatere stvari je treba financirati zato, ker jih potrebujemo vsi, tako kot vodo ali elektriko.