Pomenska mreža besed in govorica robotov

Mreženje: na Kemijskem inštitutu so vse samostalnike in glagole iz SSKJ uvrstili v enotno pomensko shemo – mrežo pomenov slovenskih besed

Objavljeno
07. januar 2016 14.30
Jure Zupan, Kemijski inštitut, Ljubljana, Andrej Lajovic, Astronomsko društvo Vega – Ljubljana
Jure Zupan, Kemijski inštitut, Ljubljana, Andrej Lajovic, Astronomsko društvo Vega – Ljubljana

Raziskave mreženja (networking) — medsebojnega povezovanja velikih količin podatkov so postale ena najhitreje rastočih raziskovalnih tematik na vrsti tehnoloških in razvojnih področij. Mreženje ni izziv le za računalništvo in informatiko, ampak tudi za matematiko, inženirstvo, umetno inteligenco, sociologijo, nevrologijo ter še mnoga druga področja. Naraščajoča množica podatkov prav kliče po raziskavah novih poti in metod v tehnologijah obdelovanja velikih količin informacij.

Po eni strani gredo raziskave v smeri mreženja dobro definiranih podatkov, kot so npr. kemijske strukture, po drugi strani pa je obetavno, a težje obvladljivo področje mreženja podatkov, opredeljenih z bolj mehkimi (fuzzy) parametri, na primer podatki iz socialnih omrežij. V obeh primerih mreženje velikih količin podatkov ne omogoča samo hitrejšega in učinkovitejšega dostopa do informacij, ampak lahko mreža s posebnostmi svoje »samogenerirajoče se« strukture omogoči nastanek novih informacij in novih znanj.

Primer elementov mreženja (podatkov), ki so z gledišča objektivnih parametrov slabo definirani, hkrati pa subjektivno zelo razumljivi, so pomeni besed. Pomene slovenskih besed vsi razumemo, saj se v tem jeziku sporazumevamo, hkrati pa jih je težko opisati s strogimi matematičnimi značilkami (deskriptorji).

Slovarji pomene besed opisujejo z besednimi zvezami, sestavljenimi iz drugih besed. Pomen besede učitelj je, na primer, v Slovarju slovenskega knjižnega jezika (SSKJ) opisan takole: kdor poklicno uči ali poučuje. Za razumevanje besede učitelj bi torej morali poznati pomene petih besed: kdor, poklicno, učiti, ali in poučevati, da o poznavanju slovničnih pravil, ki so uporabljena, niti ne govorimo.

Ko pa želimo pomen besede razložiti nekomu, ki mu manjka celostno poznavanje vseh besednih pomenov, je težavnost problema še toliko večja: kako, na primer, naučiti robota razumeti govorjeno besedo? Če pomene besed razlagamo s pomeni drugih besed – s čim potem razlagamo te, druge pomene? S parafraziranjem Gödlovega teorema nekonsistentnosti lahko trdimo, da je to nemogoče. V sistemu razlag pomenov besed s pomeni drugih besed iz istega jezika nujno pridemo do opisa določenega pomena, ki je hkrati pravilen in nepravilen. Skratka, do dveh pomenov iste besede, ki sta hkrati nasprotujoča oziroma logično protislovna.

Ker se na tem mestu ne bomo spuščali v razpravo, kako je človeška vrsta ta problem rešila (in očitno ga je, saj smo se začeli sporazumevati), se bomo raje posvetili vprašanju, ali je mogoče pomene vseh ali vsaj večine besed opisati in predstaviti z minimalnim številom osnovnih pomenov (slovarskih značilk ali značilnosti). Z drugimi besedami, iščemo čim bolj splošne značilke (osnovne pomene), na podlagi katerih lahko besede s podobnimi pomeni združujemo v pomenske skupine, hkrati pa opisujemo čim več pomenov različnih besed, tako da se opisi med seboj čim bolj razlikujejo.

Obilje informacij

Vrnimo se k prejšnjemu primeru. Za razlago pomena besede učitelj moramo poznati celoten kontekst tega, kar v naši civilizaciji opisujemo z besedo učitelj. Ni dovolj poznati pomena omenjenih petih besed, ki so v SSKJ, da je učitelj »kdor poklicno uči ali poučuje«. Robotu, ki ne pozna ne našega jezika ne naše civilizacije in kulture, moramo pojasniti, da gre pri učitelju za človeka in ne za predmet, žival, rastlino, izdelek ali pojem; da učitelj ni ženska ali otrok, ampak moški.

Robotu je treba povedati, da je učitelj človek, torej razumno bitje na najvišji razvojni stopnji, ki mu pripisujemo specifično izobrazbo, da gre pri učitelju za poklic in ne morda za opis značajske lastnosti ali bolezni. Pomen besede učitelj vsebuje tudi informacijo, da je ta poklic v zvezi z izobraževanjem in ne morda z oblanjem desk ali ropanjem someščanov, da so predmet učenja učitelja v prvi vrsti otroci v osnovnih ali srednjih šolah in tako naprej. Zavedati se moramo, da besede dobijo svoj pravi pomen šele v kontekstu z drugimi besedami, zato je pomembno, da ima robot vse ali vsaj večino možnih informacij, iz katerih lahko izlušči tiste, ki jih bo ob dejanski priložnosti potreboval.

Informacij, ki jih o pomenu vsake besede ljudje avtomatično prepoznamo, je ogromno. Le s pomočjo vseživljenjskega dopolnjevanja zajetih informacij lahko uspešno komuniciramo. Prav zaradi poznavanja velikanskega števila pomenov in njihovih povezav v zelo različnih kontekstih se lahko pogovarjamo o kompleksnih problemih z razmeroma majhnim besednim zakladom nekaj tisoč besed. V ozadju besedne komunikacije se v možganih (pomenski mreži!) pomeni uporabljenih besed iščejo, preverjajo, primerjajo, izbirajo in prilagajajo ustreznim kontekstom in situacijam. Pri tem se obračajo in preverjajo milijoni informacij, o katerih na zavestni ravni med samim komuniciranjem ne vemo ničesar ali pa vsaj ne prav veliko.

Naša predpostavka je bila, da se dá vse ali vsaj večino pomenov besed kateregakoli jezika (v našem primeru slovenščine) združiti v enovito mrežo, v kateri so besede s podobnimi ali celo zelo podobnimi pomeni (sinonimi) zbrane v majhne skupine, te pa so naprej združene v večje nadpomenske grupacije hiperonimov ali nadpomenk. Na koncu združevanja se vse združijo v eno samo mrežo, ki vsebuje pomene vseh besed.

Veliko besed ima dva ali več pomenov. Primer: kobila je samica konja, njena pomanjševalnica kobilica pa je lahko majhna kobila, žuželka, delec violine ali pa gredelj pri ladji. Zato se pomenske povezave prepletajo s pomeni besed v povsem drugih pomenskih skupinah. To močno prepletanje pomenov je shematično prikazano na sliki 1 kot prava mreža, pri kateri vozlišča predstavljajo pomenske skupine besed, ki so med seboj povezane z nitmi – pomenskimi povezavami.

Pred mreženjem oziroma grajenjem mrežnih povezav med pomeni besed smo morali najprej rešiti problem značilk, s katerimi smo nameravali pomene posameznih besed opisovati. Začeli smo s posnemanjem igre, pri kateri je treba z ustreznimi vprašanji in na podlagi odgovorov z da ali ne ugotoviti neznano besedo. Vprašali smo se, kaj mora izvedeti nekdo (robot, računalnik), ki mu predstavimo novo besedo. Odgovori na katera vprašanja bodo že na začetku najbolj zožili število možnosti?

Najustreznejša vprašanja

Pokazalo se je, da je dalo najboljši rezultat vprašanje, ki je dopuščalo štiri možnosti: ali iskana beseda (samostalnik) predstavlja nekaj, kar je a) narava/naravno, b) izdelek, c) lastno ime ali d) pojem? V eno od teh štirih kategorij lahko uvrstimo sleherno besedo samostalniške oblike. Pri delitvah je treba paziti, da izbrana področja zajamejo vse možnosti. Najbolje je, da eno od vprašanj pokrije vse možnosti, ki jih ostala ne zmorejo.

Naslednja delitev pomenske veje pri odgovoru da na vprašanje, ali gre za nekaj naravnega, je imela spet štiri možnosti: a) mrtva narava, b) rastlina, c) žival ali d) človek. Seveda je bilo nekaj težav z glivami, raznimi enoceličarji in nekaterimi drugimi oblikami, a smo vse te probleme v poznejših fazah grajenja mreže uspešno rešili. Delo se je nadaljevalo po vsaki pomenski veji navzdol, dokler pomeni niso bili dovolj opredeljeni (specifični), da so tvorili pomensko smiselne skupine za vse besede.

Za boljše razumevanje, kako pomenska mreža uporabniku ponuja informacije, si oglejmo primer samostalnika kobilica, kot ga prikaže pomenska mreža, če jo uporabimo na spletu. Na sliki 2 je tisti del pomenske mreže, ki se nanaša na besedo kobilica. Če bi bila pomenska mreža vgrajena v robotov spomin, bi bila celotna pomenska shema na voljo ves čas. Ob vsaki vhodni besedi (rdeči oval) se aktivirajo samo informacije, ležeče na prikazanih poteh, ker so le te koristne za razumevanje pomena.

Pri besedi kobilica se aktivirajo štiri glavne poti na katerih je z rumenimi ovali označenih 39 pomenskih skupin. Prvi dve poti (slika 2, na levi) se hitro združita v skupini, ki vsebuje sestavne dele naprav. Prvi informaciji na obeh poteh povesta, da sta zadevni napravi glasbilo ali plovilo. V obeh primerih je to izdelek/stvaritev človeka, kot to pove eden od ovalov na poti. Vse ostale poti vodijo do informacije, da gre pri kobilici za nekaj, kar je živa narava.

Če gre za žuželko, so na pomenski poti skupine z opisi 23 ravnokrilcev iz živalskega debla členonožcev, o katerih lahko govorimo kot o mnogočlenarjih ali nevretenčarjih, odvisno pač od tega, katero poimenovanje je ljubše robotovemu »sogovorniku«. Če bo govor o kobilici kot majhni samici konja, sta možni dve vrsti razprave. Bolj splošna bo tekla o živalih s specifičnimi lastnostmi oziroma o 405 domačih živalih, med katerimi je 55 besed za različne vrste, barve in pasme konj. Druga, bolj taksonomsko usmerjena razprava pa bi se lahko razvijala o živalskem kraljestvu, ki vsebuje informacije o vseh 1475 živalih, navedenih v SSKJ, in bi tekla preko strunarjev in vretenčarjev do konj oziroma kobile in kobilice.

Zadnja možna pomenska pot vsebuje besedo kobilica kot pomanjševalnico pri zmerjanju nerodne ženske s kobilo, kar SSKJ opisuje kot slabšalno poimenovanje ljudi. Na tej poti robot lahko izve, da ima slovenščina kar 484 slabšalnih besed za človeka, med njimi 69 takšnih, ki v tej zvezi omenjajo človeka kot žival. Mimogrede, ljubkovalnih imen za ljudi je veliko manj! Če obiščete spodaj omenjeni spletni naslov, se o vseh besedah lahko prepričate na lastne oči.

Prav vsi pomeni

Ker pomene besed sogovornik sproti razvozlava s pomočjo nadaljnjega pogovora, je povezava pomenskih skupin v enotno mrežo pri računalniški simulaciji »inteligentnega« pogovora v veliko pomoč. Na enem samem mestu najdemo prav vse skupine pomenov vseh besed (pojmov, predmetov, bitij in njihovega delovanja ter mišljenja), ki so omenjene v SSKJ. Zato se pomenska mreža dobro izkaže pri iskanju informacij, ki jih v navadnih enciklopedijah ni.

V pomenski mreži so namreč poleg sinonimov besed zbrane najrazličnejše skupine besed: minerali, zemljine, kovine, seznami geoloških in drugih obdobij, skupine rastlin in živali, vsi srebrniki, zlatniki in drugi kovanci, meniški in nunski redovi, skupine najrazličnejših ladij, ustanov in znamk avtomobilov, športov in športnikov, različne oblike državnih teritorijev, političnih in umetniških gibanj, umetniških stvaritev, seznami poklicev in značajev, seznami dobrih in slabih lastnosti, značilnosti ljudi in živali in seveda še veliko drugega.

Če je skupina le omenjena v SSKJ, potem so v pomenski mreži nujno tudi besede, ki predmete, bitja ali pojme te skupine opredmetijo! Pomenska mreža bo nedvomno v pomoč tudi sociolingvistiki – vedi, ki proučuje povezave med socialnimi lastnostmi skupine ljudi in posebnostmi jezika, ki ga govore. Število besed v pomenskih skupinah namreč precej pove o razmerah, navadah in kulturi ljudi, ki se sporazumevajo v istem jeziku. Samo droben primer: da ima slovenščina za oblič, sekiro in žago 54 različnih besed, za vsa orodja, s katerimi kopljemo ali krampamo, pa le 16, gotovo pove nekaj o načinu življenja in dela naših prednikov. Tudi kot vojaki nismo od muh, saj imamo za puško kar 37 izrazov!

Grajenje pomenske mreže ni ne hitro ne preprosto. Zahteva veliko ročnega dela in iterativno popravljanje pomenskih povezav. V nekaj letih dela nam je na Kemijskem inštitutu v Ljubljani uspelo uvrstiti vse samostalnike in glagole iz SSKJ v enotno pomensko shemo – mrežo pomenov slovenskih besed. Mreža danes vsebuje skoraj 100.000 pomenov besed (75.000 samostalnikov in 23.000 glagolov), ki so razdeljeni v nekaj več kot 3000 pomenskih skupin. Ker je na vsaki poti v povprečju 8 pomenskih skupin, je skupno na voljo več kot milijon kombinacij informacijskih nizov, ki ustrezajo različnim pomenom besed v posameznih kontekstih.

Vse to bogastvo besed in njihovih pomenov, sinonimov in podobnih besed je na spletu na voljo samo na naslovu http://mreza.andrej.ad-vega.si. Po vpisu želene besede v iskalno polje se vse pripadajoče povezave izrišejo na zaslonu, kakor prikazuje slika 2. Nadaljnje informacije so dosegljive s klikanjem po ustreznih ovalih.

Sinonimi so navadno v ovalu nad besedo, ali pa kar ob njej. Po vsakem kliku se slika pomenske mreže spremeni tako, da prikaže povezave, ki ustrezajo kliknjeni besedi. Opisano delo je samo začetna faza gradnje celostne pomenske mreže. Dejanskih povezav besednih pomenov, ki bi omogočale avtomatično (računalniško vódeno) razumevanje besedil, je neprimerno več, kot smo jih zajeli s tem delom. Dosežen pa je bil glavni namen – pokazati, da je izvedba mogoča in da so pomenske mreže koristne na več področjih, tudi za večanje besednega zaklada. Delo se bo še nadaljevalo.

Izgubljeno s prevodom

Ena od težav pri grajenju pomenske mreže je, da se je ne dá prevesti iz kakega drugega jezika. Pomenske povezave besed se, na primer v angleščini močno razlikujejo od pomenskih povezav istih besed, prevedenih v slovenščino. V angleščini ima skoraj vsak glagol neposredno povezavo s samostalniškim pomenom (npr. water – voda, to water – zalivati); takšnih povezav v slovenščini ni.

V nasprotju z angleščino, pri kateri skorajda ni ločnice med besedami moškega in ženskega spola, imata moška in ženska oblika v slovenščini lahko še povsem druge dodatne pomene (npr. tujec – tujka: tuja beseda, ali kozel – koza: kočijažev sedež in telovadno orodje).

Angleščina se od slovanskih jezikov loči tudi po tem, da imajo besede slednjih v različnih slovničnih oblikah lahko precej presenetljive dodatne pomene. Primer: pet je sicer glavni števnik, a v določeni obliki se nanaša tudi na del čevlja/noge (pêta, ona ne nosi pêt, si ni obrusil pêt ), na glasbo (péti, šel je pét), ali pa na izvajanje glasbenega dela (oratorij je bil pét). Takšnih povezav se z enostavnim prevajanjem tujejezične pomenske mreže ne dá preslikati.

Težave so tudi pri anglosaksonskih jezikovnih programskih orodjih, ki so izrazito prirejeni za uporabo in delo v angleščini. Iz povedanih razlogov sta razvoj in uporaba tovrstnih domačih izdelkov nujna, če ne zaradi drugega, pa vsaj zato, ker bo v prihodnosti v tehnologijo komunikacij med strojem in človekom gotovo posegla tudi jezikovna plat problema in nam, upajmo, ne bo vseeno, ali se bomo morali z gospodinjskimi stroji pogovarjati v angleščini namesto v slovenščini.

Jure Zupan, Kemijski inštitut, Ljubljana

Andrej Lajovic, Astronomsko društvo Vega – Ljubljana