Umetna inteligenca (še) ne zna sklepati kot človek

Tudi modeli, za generiranje globokih ponaredkov, zlitih obrazov za potne liste in izvajanje drugih napadov, so vse boljši.

Galerija

Dr. Vitomir Štruc je raziskovalec v Laboratoriju za strojno inteligenco, kjer so glavne teme raziskav govorne in slikovne tehnologije, računalniški in strojni vid, strojno učenje, umetna inteligenca in razpoznavanje vzorcev. FOTO: Črt Piksi

Saša Senica

26. 11. 2023 | 06:00

16:54

A+A-

Tako kot na drugih področjih, ki bi jih lahko uvrstili pod skupno nadpomenko umetna inteligenca (UI), se je v zadnjih letih skokovit napredek zgodil tudi pri računalniškem vidu, ki je prav tako podkrepljen z umetno inteligenco. Ne le da so modeli sposobni izjemne interpretacije slik, zdaj jih lahko celo ustvarjajo. Računalniški vid je v resnici ena od gonilnih sil umetne inteligence, pravi prof. dr. Vitomir Štruc s Fakultete za elektrotehniko Univerze v Ljubljani.

Kakšen je rezultat interpretacije slik, je odvisno od cilja računalniškega vida – lahko gre za prepoznavanje obrazov, različnih vzorcev, identifikacijo objektov, potrebnih za avtonomno vožnjo. Aplikacij računalniškega vida je ogromno, hkrati pa je veliko tudi nevarnosti, od zlorabe slik za ponarejanje potnih listov do ustvarjanja globokih ponaredkov (angl. deepfake).

V zadnjih letih je računalniški vid postal izredno oster, kajne?

Napredek je res ogromen, področje se je v zadnjih nekaj letih razcvetelo. Še pred desetletjem smo govorili o zelo preprostih problemih, ki smo jih kontrolirali v laboratorijskem okolju. Nato pa so se z globokim učenjem začeli modeli iz podatkov učiti zelo učinkovito, na voljo je bilo vse več podatkov, računska moč računalnikov se je zelo povečala. To je povzročilo malo revolucijo v razpoznavanju vzorcev.

Metode na celotnem področju umetne inteligence konvergirajo. Včasih smo imeli različne modele za procesiranje govora, akustičnih signalov, za procesiranje naravnega jezika, besedil, za računalniški vid, danes vsa ta področja temeljijo na približno enaki metodologiji. Osnovni koncepti so povsod enaki.

Okrepljeni z globokim učenjem smo se s problemov v laboratorijih preselili na probleme v realnem svetu. Danes je aplikacij, ki uporabljajo računalniški vid, že veliko v uporabi. Vsak pametni telefon uporablja biometrijo, da se identificirate z obrazom, šarenico ali, najbolj pogosto, s prstnim odtisom. Potem so še druge aplikacije, na primer virtualna resničnost, trenutno pa so najbolj aktualni generativni modeli za ustvarjanje slik in videoposnetkov, to je ali iz fotografij ali iz tekstovnih opisov. Tu se je odprl nov trg aplikacij.

Zora algoritemsko ustvarjenih laži

Na eni strani imamo torej računalniški vid, ki prepoznava vzorce na slikah, in na drugi generativno UI, ki ustvarja nove slike. Potemtakem gre za podobno tehnologijo?

V resnici gre za enako tehnologijo. Če se vrnem nekoliko v preteklost, smo najprej imeli tako imenovane diskriminatorne modele, ki so iz posnetkov lahko razlikovali na primer jabolka in hruške. Iz tega smo dobili razpoznavalnike, za obraze v biometriji, za bralnike registrskih tablic, ki prepoznavajo različne črke, in podobno. To so modeli, ki videne stvari razvrščajo v razrede. Tudi na telefonu jih imate, recimo detektor nasmehov. Pri tej generaciji modelov se je izkazalo, da jih je mogoče učinkovito učiti, lahko pa povsem enak model uporabimo za to, da generira nove podatke. Pri tem pa je seveda način učenja drugačen, prav tako namen.

Ljudje imamo izvrstno sposobnost sklepanja, da denimo spoznamo eno jabolko in nato kot jabolka prepoznamo tudi vse druge različice in se zavedamo, da je jabolko hrana, lahko je kislo, sladko ... Računalniki take sposobnosti sklepanja (še) nimajo?

Tako kot so trenutno zastavljeni, se računalniški modeli zelo malo »zavedajo«, kaj je koncept jabolka, da je to nekaj okroglega in ima hranilno vrednost. Učimo jih iz primerov. Če želimo neki model naučiti prepoznati koncept jabolka, mu jih moramo pokazati iz različnih zornih kotov, pri različni osvetlitvi, tudi različne sorte. Da bi se modeli česarkoli zavedali, kot to vidimo v kakšnih znanstvenofantastičnih filmih, pa danes še ni bojazni.

Modeli v ozadju zgolj množijo ogromne matrike števil in posledično sklepajo iz podanih primerov. Seveda želimo modele prilagoditi tako, da bi bili karseda podobni človeku in človeški sposobnosti zaznavanja in sklepanja, toda trenutno so v uporabi le modeli, ki so se na podlagi velikanske količine podatkov naučili vzpostaviti povezavo med vhodnimi podatki in njihovimi ročno dodeljenimi oznakami. Če takšnemu modelu pokažete sliko hruške, model pa nato vrne oznako »hruška«, to seveda daje občutek neke inteligence, podobne človeški, čeprav to v resnici ni popolnoma tako.

Ko sem se sam začel ukvarjati s tem področjem, smo imeli za učenje razpoznavalnikov obrazov na razpolago bazo podatkov, v kateri je bilo približno sto oseb na približno 2000 slikah. Danes govorimo o bazah podatkov s 300 milijoni slik. In to ogromno številko želijo še povečati. Takšne količine podatkov danes omogočajo gradnjo izredno učinkovitih modelov v računalniškem vidu, ki so sposobni svoje naloge opravljati izredno uspešno, a so tipično omejeni zgolj na eno izbrano nalogo. Če model učinkovito prepoznava obraze, to še ne pomeni, da zna tudi ločiti jabolka od hrušk oziroma da ima kakršnokoli inteligenco, ki presega nalogo, za katero je bil razvit.

UI oziroma modele si je treba predstavljati kot nekaj, kar poskuša človeške sposobnosti posnemati in jih ne nujno presega. No, morda lahko preseže povprečje, verjetno model napiše boljši esej od povprečnega človeka, še zdaleč pa ne more preseči mojstra. Vendar že preseganje povprečnega človeka izpade kot inteligentno dejanje računalnika.

Vitomir Štruc je doktoriral je leta 2010 na Fakulteti za elektrotehniko Univerze v Ljubljani. Trenutno dela kot redni profesor v Laboratoriju za strojno inteligenco na tej fakulteti. FOTO: Črt Piksi

Kam gre tu razvoj – predvsem v smeri povečevanja količine vhodnih podatkov, iz katerih se modeli učijo?

O tem se mnenja krešejo. Nekateri menijo, da več ko je podatkov, bolj bodo razviti modeli učinkoviti, se pa s tem ne strinjajo vsi. V zadnjih letih je šlo v napihovanje vsega, od količine podatkov do računskih virov, in prišli smo do točke, ko univerze in raziskovalci niti ne morejo več učiti modelov, ki bi se kosali z modeli večjih podjetij, saj nimamo ne virov podatkov ne denarja, da bi lahko poganjali vso to požrešno mašinerijo. Ne glede na vse pa je povečevanje količine podatkov trenutno glavni trend razvoja UI, ki zajema tudi temeljne modele (foundation models), v to kategorijo spadajo vsi veliki jezikovni modeli, kot so GPT-ji.

Po drugi strani modele lahko učimo še na tolikšni količini podatkov, pa sposobnosti človeškega razmišljanja ali sklepanja ne bodo dosegli. Modeli ne morejo posploševati, medtem ko človeku lahko na hitro pokažeš idejo neke računalniške igrice in se bo kmalu naučil vseh pravil. Mi smo veliko bolj učinkoviti pri sklepanju in učenju iz majhne količine podatkov, računalniški modeli tega še ne znajo. To bi bil lahko velik konceptualni preskok, vprašanje je sicer, ali je sploh izvedljivo, vendar ena smer razvoja vodi tudi v ustvarjanje modelov, sposobnih učenja iz majhne količine podatkov, ki bi nato znali posploševati na različne situacije in karakteristike vhodnih podatkov.

Umetna inteligenca zahteva izobraženega in kritičnega uporabnika

Nedavno ste v Sloveniji gostili mednarodno konferenco o biometriji. Na katere probleme ste opozorili?

IJCB je največja akademska konferenca na temo biometrije na svetu. Veliko je bilo govora o sintetičnih podatkih, nizkoresolucijskem razpoznavanju, pa o osebnih dokumentih. Denimo o zlivanju (morphing) slik, ki jih nato uporabljajo za potne liste. Veliko takšnih zlorab in kraj identitete so odkrili ravno v Sloveniji. Obstajajo programi, ki zelo uspešno zlijejo fotografiji dveh podobnih si oseb, odvisno, katero bi gledali, bi na fotografiji videli to osebo. S takšno sliko je mogoče pridobiti potni list, ki ga nato lahko uporabljata dve osebi, biometrični senzorji bi obe spustili čez mejo.

Uporaba biometričnih podatkov je že zelo uveljavljena, hkrati pa, kot ste omenili, vir številnih zlorab.

Najbolj znani modeli v biometriji so modeli za razpoznavanje vzorcev šarenice, obraza in prstnega odtisa. Na biometričnem področju se večinoma vse vrti okoli teh treh človekovih značilnosti. V ZDA pa denimo Amazon v svojih fizičnih trgovinah uporablja celotno dlan in ožilje v dlani kot identifikacijsko metodo, na dlan lahko vežete kreditno kartico, kar pomeni, da je treba stroju za odčitavanje dlani in modelu za njeno prepoznavanje zelo zaupati, da denarja s kartice ne odšteje komu drugemu.

Omenjene glavne tri modalnosti imajo seveda svoje prednosti in slabosti. Obraz je zelo preprost za uporabo v najrazličnejših aplikacijah, pri čemer je najbolj negativno to, da je te podatke mogoče zlorabiti za množičen nadzor prebivalcev. Prstni odtis za odklepanje telefonov verjetno uporabljamo že skoraj vsi, uporaba šarenice pa denimo zahteva posameznikovo sodelovanje, da se pravilno postavi pred senzor. Pri vsem je seveda glavno vprašanje, za kaj se te podatke uporablja. Če želimo, da je aplikacija karseda prijazna do uporabnikov, potem je obraz prava modalnost. Samodejno prepoznavanje obrazov je na primer zelo uporabno na letališčih, saj omogoča hitre vstopne kontrole, ki bi se sicer lahko zelo zelo zavlekle.

Vedno pa so, jasno, možne zlorabe. Na primer izdelava sintetičnega prstnega odtisa na silikonu, pa napadi z umetnim vzorcem (presentation attack), ko lahko nepridipravi uporabijo fotografijo druge osebe ali pa kakšno sofisticirano masko in s tem zlorabijo vaše biometrične podatke. To ima lahko resne posledice za posameznika, tako materialne kot kazenske.

Zelo živahno raziskovalno področje so globoki ponaredki (deepfake), kako jih prepoznati. Možnosti zlorab je tu nič koliko, od objav posnetkov s sporno vsebino do uporabe posnetka na pomembnih videokonferenčnih klicih, denimo v banko. Tu vsekakor potrebujemo orodja za samodejno zaznavanje globokih ponaredkov. Danes sicer lahko še razmeroma hitro povemo, kaj je res in kaj ne, hkrati pa je dejstvo, da tehnologija izredno hitro napreduje. Še pred dvema letoma sem menil, da je nemogoče ponarediti celoten videoposnetek, danes je to realnost, videoposnetke je mogoče ustvarjati iz nič. Pred leti je bilo potrebno precej znanja za ustvarjanje ponaredkov, zdaj je na voljo kopica aplikacij, ki so preproste za uporabo. Vse manj znanja je torej potrebnega za generiranje globokih ponaredkov, kar je v času razmaha lažnih informacij še kako velik problem. Že zdaj mnogi ne znajo prepoznati delovanja algoritmov, ki jim servirajo vsebine.

Tu je še evropska zakonodaja o uporabi in varstvu osebnih podatkov. Kar nekaj projektov teče, tudi mi smo imeli enega takšnega, denimo, kako kriptirati zbrane podatke, kako »izbrisati« identiteto oseb, hkrati pa ohraniti podatke o spolu, starosti. Na drugi strani gre za ustvarjanje sintetičnih podatkov, to je, da generiramo neobstoječe ljudi in s takimi slikami učimo modele, pri tem pa ne kršimo nobene zakonodaje.

Vse manj znanja je potrebnega za generiranje globokih ponaredkov, kar je v času razmaha lažnih informacij še kako velik problem. FOTO: Črt Piksi

Zakonodaja torej vseeno ne sme biti preveč omejujoča?

Mi iščemo rešitve, ki so v skladu z zakonodajo, in kar nekaj zelo dobrih imamo. Problem pa je, ker so stvari nedorečene. Nekatere države zbirajo zelo veliko teh podatkov, v Evropi se za zdaj tehtnica nagiba na stran zasebnosti, drugod je nagnjena na stran varnosti.

Vaš laboratorij se je ukvarjal tudi z deidentifikacijsko tehnologijo. Za kaj gre?

To je bil projekt na temo generativnih modelov za zagotavljanje zasebnosti. Naj navedem primer: v aplikacijah, kot je Googlov street view, se pogosto pojavijo osebe, za katere Google nima dovoljenja za objavo njihovih podob v aplikaciji. Takšne osebe je treba zaznati in njihovo podobo toliko spremeniti, da je ni več mogoče prepoznati. Podobne zahteve imajo tudi druge aplikacije. Mi smo razvijali modele, ki so sposobni obraze posnetih ljudi spremeniti na fotorealistični način. Torej, osebe na posnetku ni več mogoče identificirati, še vedno pa je videti kot oseba oziroma obraz osebe in ne zamegljena packa. Pri tem so se ohranili podatki, kot so starost, spol … Temu lahko po svoje rečemo tudi anonimizacija vizualnih podatkov. Na primer, neko nakupovalno središče želi poznati svoje potrošnike, koliko so stari, ali je med njimi več moških ali žensk … Za obdelavo takih podatkov ne potrebujejo identitete osebe, vendar samo želene značilnosti. S posebnimi modeli lahko deidentificiramo osebe na posnetkih, torej zamaskiramo identiteto in ohranimo informacijo o demografiji. Enako denimo za fotografije, ko starši ne dovolijo slikati otrok, obraze teh otrok se anonimizira, torej niso podobni nikomur, še vedno pa je fotografija popolnoma realistična.

Kar nekaj možnosti zlorab ste omenili, kako dobri ste pri rešitvah?

Tu igramo igro mačka z mišjo. Modeli, za generiranje globokih ponaredkov, zlitih obrazov za potne liste in izvajanje drugih napadov na biometrične sisteme, postajajo vse boljši. Naš glavni cilj je, da razvijemo tako zmogljive modele za detekcijo takšnih napadov, da bi bil vloženi trud za zlorabo večji, kot bi bila korist od zlorabe. Glavni problem pri napadih je časovna komponenta, koliko časa potrebujemo, da tehnologijo prilagodimo, da je odporna proti novim napadom, ki jih danes mogoče niti še ne poznamo.

Prej ste omenili tudi tehnologijo, kako iz slabih podatkov narediti dobre podatke, torej, kako zelo slab posnetek pretvoriti v dobrega, da na njem lahko prepoznajo ljudi.

Metode za izboljševanje kakovosti so dvorezni meč. Iz nekih podatkov lahko hitro naredimo zelo kakovostne, toda ta dodana informacija je po svoje halucinirana, ne moremo vedeti, ali je informacija prava. Sam uporabo takšne tehnologije vidim v drugih aplikacijah, recimo za kompresijo videa in njegovo dekodiranje, tu menim, da ni težav za gledalca, če je dodana informacija nekoliko izmišljena.

V biometriji pa je to hitro lahko težava, če model ustvari obraz, podoben mojemu ali vašemu, in se tako znajdemo nekje, kjer ne bi smeli biti. Ta tehnologija, za katero se še posebej zanimajo v ZDA, je tudi že zelo napredovala, vendar iz treh pikslov jih vseeno ne moreš narediti milijon. Se pa lahko pri prepoznavanju ljudi na manj kakovostnih posnetkih opirajo na druge značilnosti, kako človek hodi, ali gre za moškega ali žensko, take značilnosti modeli že znajo prepoznati.

S kakšnimi projekti se še ukvarjate v vašem laboratoriju?

Med drugim smo se ukvarjali z uporabo vizualnih podatkov v modni industriji, da bi bilo preizkušanje oblačil v spletnih trgovinah karseda fotorealistično. Nedavno pa smo zagnali dva nova projekta, eden je, kako odkrivati globoke ponaredke, drugi pa se vrti okoli razložljivosti modelov. Zaželeno je oziroma nujno bi bilo, da bi pri vseh modelih, katerih rezultati lahko vplivajo na človeka, znali razložiti, kako je model prišel do sklepa. Pogosto slišimo, da so modeli kot črne skrinjice, katerih notranjosti ne poznamo, in ne vemo, kako je model prišel do rezultata, vsaj pri nekaterih modelih bi želeli to natančno razložiti.