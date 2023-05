Ob nazivu jezikoslovca dostikrat še vedno pomislimo na nekoga, ki obdan z množico knjig premleva stavčne strukture, s katerimi si nato dajejo opravka prejkone zgolj še šolarji in literati. Dr. Simon Krek pa je razpet med ljubljansko Fakulteto za računalništvo in informatiko na eni strani ter Inštitutom Jožef Stefan na drugi. Njegovo delo slika moderno akademsko obravnavo jezika, ki ga vse bolj ponazarjajo ogromne računalniške baze podatkov, strojna obdelava in uporabna spletna orodja.

Dr. Krek ima za seboj že množico projektov, pri katerih je sodeloval kot raziskovalec, koordinator ali vodja, na primer razvoj Oxfordovega Velikega angleško-slovenskega slovarja ali nedavno nadgradnjo jezikovnega korpusa Gigafida. V aktualnih časih pa je najbolj viden kot glavni koordinator velikega akademskega projekta Razvoj slovenščine v digitalnem okolju (RSDO), ki je postavil temelje za udejanjenje modernih računalniških jezikovnih orodij, kot so strojni prevajalniki in prepoznavalniki govora, pa tudi trenutno zelo razvpiti pogovorni boti.

RSDO je bil zelo obsežen podvig, ki je združeval množico programja, od razvoja velikega jezikovnega modela do prepoznave govora. Kdo je določil glavne cilje?

Glavne cilje RSDO so definirali na ministrstvu za kulturo, ki je bilo razpisovalec projekta. Izšli pa so iz dela sveta za spremljanje razvoja jezikovnih virov in tehnologij, delovnega telesa, kjer so sodelovala tri ministrstva, za kulturo, izobraževanje in javno upravo, in pa strokovnjaki za jezikovne tehnologije. Z zasedanji smo začeli leta 2017; tam smo bili poleg ministrov še jaz, pa Kozma Ahačič z Inštituta za slovenski jezik in sodelavec z računalniške fakultete Marko Robnik Šikonja. Izjemno pomembno se mi zdi, da so bili na sestankih dejansko prisotni tudi ministri, Anton Peršak, Maja Makovec Brenčič in Boris Koprivnikar, saj gre za odločevalce, ki morajo biti pri takšnem dogajanju vključeni, sicer se ponavadi nič ne zgodi. Na podlagi tistih debat je bil potem pripravljen razpis, ki je bil objavljen na začetku leta 2020. Se pravi, v tem primeru so od takrat, ko smo se o tem začeli konkretno pogovarjati, pa do razpisa pretekla tri leta.

Evropska komisija si bistveno bolj prizadeva za tehnološko in podatkovno neodvisnost Evrope. FOTO: Jože Suhadolnik

Pri RSDO je sodelovalo kar šest fakultet in še šest podjetij oziroma približno sto dvajset strokovnjakov. Je na tem področju že kdaj potekal projekt takšnih razsežnosti?

Primerljiv, a vseeno malo manjši, je bil projekt Sporazumevanje v slovenskem jeziku, ki je trajal od leta 2008 do 2013. Takrat je bila v bistvu prvič narejena osnova za to, kar se je potem nadgrajevalo z RSDO. Vmes je bila precejšnja črna luknja, ko so bile jezikovne tehnologije praktično brez finančne podpore.

Torej je bilo strojno učenje v jezikoslovju v igri že pred desetletjem?

Seveda, toda pri tistem projektu je bil fokus vseeno bolj na jezikovnih virih in spletnih portalih, ne pa toliko na tehnologijah, kot je denimo prepoznava govora.

Pri RSDO ste bili glavni koordinator. Kako je bilo videti usmerjanje tako velikega števila ljudi?

Zelo kompleksno (smeh). Izziv je bil že sestaviti konzorcij in prijavo. V veliko pomoč je bil tu konzorcij Clarin, to je raziskovalna infrastruktura za jezikovne vire, ki je sicer locirana na Inštitutu Jožef Stefan, ampak pri njej sodelujejo že praktično vsi, ki so bili potem tudi v skupini za RSDO. Prvotni poziv smo tako poslali prek Clarina in na koncu prišli do vseh strokovnjakov za projekt. Osebno me zelo veseli, da je bil poleg tudi ZRC SAZU, ker je na našem področju prevečkrat tako, da obstajata dva ločena pola, jezikovno-jezikoslovni in pa računalniški, kjer se ljudje med sabo ne znajo pogovarjati. Pri RSDO sta bila oba pola intenzivno vključena.

Zaradi spajanja jezikoslovja in računalništva je veliko vašega dela interdisciplinarnega. Ste takšno prakso zgradili že pred RSDO ali ste jo morali zanj še izpopolniti?

Računalniška obdelava jezika je že stara stvar, začela se je v sedemdesetih letih prejšnjega stoletja oziroma še kakšno leto prej, v Sloveniji pa intenzivno v devetdesetih. Takrat sem bil urednik za slovarje na založbi DZS in izkazalo se je, da za slovarje nujno potrebujemo korpuse, se pravi zbirke besedil, ki jih je mogoče enostavno računalniško obdelovati in na ta način ugotoviti, kako sta jezik in njegova raba videti v nekem trenutku. Na srečo mi je uspelo vodilne na DZS prepričati, da je treba tak korpus financirati. Takrat je že nastal zametek kombinacije računalničarjev in jezikoslovcev, kajti v imenu korpusa FIDA, ki je leta 2000 izšel iz tega truda, so bile začetnice Filozofske fakultete, Inštituta Jožef Stefan, DZS in (podjetja) Amebis. Kljub temu pa moram povedati, da imamo šele od lani v Sloveniji tudi študijski program Digitalna lingvistika, iz katerega naj bi izšel profil strokovnjakov, ki jih nujno potrebujemo. Torej ljudje, ki obvladajo tako jezikoslovje kot računalništvo. Vsi drugi smo se morali manjkajočega pola priučiti samostojno, jaz recimo računalniškega.

Večina denarja za financiranje RSDO je prišla iz naslova evropskega sklada za regionalni razvoj. Unija pravzaprav že dolgo pozorno skrbi za jezike svojih članic.

Ta zgodba je razmeroma dolga. Že v Evropski gospodarski skupnosti, v osemdesetih letih prejšnjega stoletja, so imeli ogromen projekt strojnega prevajanja Eurotra. Že takrat so jeziki, kot je švedščina, vstopali v digitalno dimenzijo, če se tako izrazim, v devetdesetih pa so digitalizacijo še pospešili. Mi smo takrat še vidno zaostajali, so pa nekatere naše institucije, tu mislim predvsem na Inštitut Jožef Stefan, dobivale prve evropske projekte, s katerimi so v EU že načrtno oprezali proti vzhodu. Takšen je bil na primer Multext-East. Leta 2004, ob našem vstopu v zvezo, so dobili množico manjših jezikov, kar jih je precej šokiralo, in na teh izkušnjah je postala skrb za evropske jezike v okviru EU zelo premišljena in načrtna. Od leta 2011 tako obstaja sistem, ki opazuje evropske jezike in ocenjuje stanje njihove digitalne podpore. Se pravi, ali imajo korpuse in kakšni ti so, ali obstajajo prevajalniki, govorjeni viri ... Od tu lahko vidimo, kako se slovenščina primerja z drugimi evropskimi jeziki. Moram poudariti, da nikoli ne bomo tako dobro opremljeni kot recimo Francozi ali Italijani, ker imamo premalo govorcev in podjetij, ki se s tem ukvarjajo. Lahko pa se trudimo, da bomo imeli podobne zmogljivosti kot Čehi ali Estonci.

Simon Krek Fakulteta za računalništvo 23.3.2023 Ljubljana Slovenija [Simon Krek,Fakulteta za računalništvo,Ljubljana,Slovenija] Foto Jože Suhadolnik

Tu med drugim trčimo na omejitve jezikovnih virov. Kateri so največji izzivi pri njihovem oblikovanju?

Tipično imamo dve oviri, ki prideta iz naslova varovanja osebnih podatkov in pa zaščite avtorskih pravic. Naj dam konkreten primer, ki nam povzroča velike težave. Pri semantičnih tehnologijah je bistveno poznati pomen besed, zvez med njimi, imenskih entitet in tako naprej. Za to potrebujemo neke vire znanja in posledično je bilo že od začetka predvideno, da bomo približno 300.000 evrov v okviru RSDO namenili za odkup avtorskih pravic za takšne vire ter njihovo predajo v odprti dostop, kjer bi bili na voljo vsakomur. Kar zadeva splošno besedišče za slovenščino, je edini vir Slovar slovenskega knjižnega jezika (SSKJ). Ampak izkazalo se je, da lastniki avtorskih pravic za ta slovar, ki so njegovi originalni avtorji, v odkup ne privolijo. Gre za žalostno zgodbo, ki je posledica drastičnih sprememb zakonodaje po osamosvojitvi. Takrat, leta 1994, so namreč snovalci SSKJ ugotovili, da so po novi zakonodaji lastniki avtorskih pravic, in odtlej drugi s slovarjem ne moremo narediti nič uporabnega. Za nas to pomeni, da bomo morali takšno bazo podatkov postaviti na novo, tokrat v odprti obliki. To je tudi eden od glavnih ciljev Centra za jezikovne vire in tehnologije (CJVT) na Univerzi v Ljubljani.

Podobno kot obstajajo druge vrste infrastrukture, na primer vodovod ali ceste, mora obstajati tudi infrastruktura za jezik.

Zanimiva je še zgodba Enciklopedije Slovenije. Ta je, drugače kot SSKJ, končala pri zasebni družbi, založbi Mladinska knjiga. Ta nima več interesa, da bi jo tržila, toda hkrati ne vedo, kdo je lastnik avtorskih pravic, ker je zadeva že tako stara, da pogodbe niso več ohranjene. Res nesrečen primer, ki kaže, da teh stvari v družbi še nimamo dobro urejenih. Moram pa opozoriti tudi na novo določilo v zakonu o avtorskih pravicah, iz lanskega oktobra, da za potrebe podatkovnega rudarjenja lahko vzamemo katerikoli tekst, ne da bi vprašali lastnike avtorskih pravic. To pomeni, da teoretično lahko brez posebnih vprašanj uporabimo digitalizirane zbirke NUK, če so za potrebe jezikovnega modela. V praksi pa bomo sedaj videli, kako institucije, ki imajo te vire, zakon razumejo (smeh).

Zakaj morajo biti takšne tehnologije odprte in zakaj je to državna stvar?

Podobno kot obstajajo druge vrste infrastrukture, na primer vodovod ali ceste, mora obstajati tudi infrastruktura za jezik. In stvari, ki niso temeljno komercialne, mora zagotavljati skupnost. To je država. Vzemimo za primer korpus – korpusa se ne da prodati, toda nekdo ga mora napraviti, da lahko potem na njegovi osnovi nastanejo stvari, kot so jezikovni modeli.

Resolucija o nacionalnem programu za jezikovno politiko 2021–2025 predvideva ustanovitev novega vladnega delovnega telesa za spremljanje razvoja jezikovnih virov in tehnologij.

Delovno telo je zdaj dejansko ustanovljeno, organiziran je bil tudi prvi sestanek. V njem so predstavniki štirih ministrstev, kar je dobro, ker je bilo usklajevanje med ministrstvi vedno problematično. V vladi je veljalo, da slovenščina spada pod kulturo, raziskovalne infrastrukture, na primer Clarin, spadajo pod znanost, strategija umetne inteligence, kamor se uvrščajo jezikovne tehnologije, pod »digitalno preobrazbo«. Izobraževalno ministrstvo je financiralo prvi večji projekt na temo jezikovnih virov in tehnologij med letoma 2008 in 2013 in ima verjetno tudi interes za to področje znotraj digitalizacije šolstva. Po drugi strani je v tem delovnem telesu šestnajst strokovnjakov iz različnih ustanov, kar se mi zdi za učinkovito delovanje preveč. Organizirati bo treba neko ožjo delovno skupino, da bo pripravila načrt, o katerem potem lahko razpravlja širša skupina.

Kako je ta prvi sestanek potekal?

Najbolj sem pogrešal razumevanje, da je nujno čim prej zagotoviti dolgoročno stabilno financiranje. Šele tako bo mogoče obdržati kadre, ki poznajo področje, ter se normalno organizirati. Če je financiranje projektno, kot je bilo do zdaj, se vedno ponavlja isti problem – projekt je končan, ljudje, ki so se nekaj naučili, morajo iskati drugo zaposlitev, pogosto odidejo v tujino. Tako da dostikrat izobrazimo strokovnjake, ki potem delajo za druge jezike, kar je popolnoma neracionalno. Podobno, kot če bi projektno financirali muzeje, NUK ali opero. Tri leta bi zbirali knjige ali eksponate, potem pa zaprli stavbo, poslali zbirke v skladišče, ljudi pa v tujino ali v druge službe.

Proti koncu projekta RSDO, na začetku oktobra lani, je rektor ljubljanske univerze pisal vsem ministrstvom glede tega, odgovor je prišel tik pred sestankom, po več kot pol leta. Pri tej hitrosti se nič ne bo zgodilo prej kot v štirih letih, tako kot v prejšnji rundi. Treba je reči, da bo določen pritisk verjetno prišel tudi iz Evrope, ki zdaj financira projekt European Language Data Space in ustanavlja konzorcij za jezikovne tehnologije na ravni držav članic.

Nacionalni interes Za komentar na kritike dr. Kreka smo povprašali na ministrstvo za digitalno preobrazbo. Tam so izrazili stališče, da so jezikovne tehnologije specifično področje nacionalnega interesa, zato se strinjajo, da si zaslužijo stalno, sistemsko financiranje. Pravijo, da so vodenje nove delovne skupine prevzeli prav z namenom, da se spremeni stanje prepočasnega, prekinjenega razvoja.

Zakaj za takšne evropske projekte potrebujemo lasten vložek in znanje?

Ker se vedno odvijajo s sodelovanjem države članice in evropskih centrov. Mi moramo ponuditi lastne jezikovne vire in tehnologije, če hočemo, da bodo vključeni v vseevropske jezikovne modele. To so modeli, ki so narejeni na podlagi podatkov iz več jezikov.

Takšni večjezični jezikovni modeli so zdaj prevladali?

Pospešeno so se razvili po nastanku nevronskih mrež s transformerji, pred približno petimi leti. V bistvu so bili vse do lanskega novembra v eksperimentalni fazi, nakar se je pojavil chatgpt in smo se vsi nenadoma zavedeli, česa vsega so zares zmožni. To je, zelo dobro počnejo tudi vse tiste reči, ki smo jih napravili za specifično slovenske jezikovne modele in orodja na tej osnovi. In to je nevarno, ker lahko na ta način tuja tehnološka podjetja pridejo na naš trg in in prevladajo nad lokalnimi rešitvami. To so velikani, kot je naveza Microsofta in OpenAI, pa Google in Nvidia. Evropa je severnoameriškim tehnološkim podjetjem dolga leta mirno predajala podatke, da so ta na njihovi osnovi kovala ogromne dobičke. Sedaj se položaj na srečo spreminja, ker si evropska komisija bistveno bolj prizadeva za tehnološko in podatkovno neodvisnost Evrope. Temelj za takšno jezikovno suverenost so evropski večjezični modeli, kot je odprti model bloom, v katerega se bomo trudili vključiti. Tako se bomo v okviru Evrope nemara lahko postavili po robu prevladi tehnoloških velikanov. To je res takšen tektonski premik, da kot slovenščina nujno moramo biti zraven.

Če skleneva, narod si bo pisal sodbo sam, ali pa mu jo bodo tuji strojni algoritmi?

Točno tako.