Mesterséges intelligencia és a big data: megbízható?

Mesterséges intelligencia és a big data: megbízható?

2020. augusztus 11. 08:00

A könyvtárosok már akkor szembesültek a big data jelentette kihívásokkal, amikor a kifejezés még messze volt a mindennapi felkapott használattól. A tömeges adatmennyiséget feldolgozó mesterséges intelligencia képes az emberi agy számára áttekinthetetlen mennyiségű adatot átfésülni, felfedezve köztük számunkra rejtett anomáliákat és mintákat. Azonban felmerül a megbízhatóság kérdése…

A legújabb információkereső rendszerek már nem kulcsszavak után kutatnak a hozzájuk rendelt adatbázisban, hanem a keresőkifejezések alapján fogalmakat alkotnak az egyes keresésekről, majd szemantikai kapcsolatok révén alternatív szavakat és kifejezéseket is figyelembe vesznek a keresés során. A pontosságot a gépi tanulásnak nevezett eljárással pontosítja a mesterséges intelligencia (MI), amely az emberi agyhoz hasonlóan minél nagyobb tapasztalattal rendelkezik, annál hatékonyabbá válik.

Ezt a hatékonyságot kérdőjelezi meg Marydee Ojala az Online Searcher magazin főszerkesztője a Computers in Libraries folyóiratban megjelent cikkében. Példaként a következő példát állítja: ki szeretnénk deríteni, hogy a sky (ég) szó hányszor szerepel Shakespeare műveiben. A keresést végző MI vajon figyelembe fogja venni a szinonimákat? A szoftver felismeri és rákeres a heavens, welkin (mindkettő égboltot jelent) szavakra, vagy a celestialra (mennyei, égi). Tudni fogja-e vajon az algoritmus, hogy a kék említése a szövegben mikor utal az égboltra és mikor nem? Értelmezni tudja-e egyáltalán a gép az égboltra utaló hasonlatokat, felismeri-e egyáltalán a lírai motívumokat? Ha szoftver azt adja válaszként, hogy 10 582-szer írta le Shakespeare az eget műveiben, akkor honnan fogjuk tudni, hogy pontos adatot kaptunk? Hiszen pont azért használunk automatizált eszközt, mert emberi léptékkel túl nagy mennyiségű adatot kellene átvizsgálni. További példa a prediktív (előrejelző) analitika tovagyűrűző hatása. Mi történik akkor, ha egy kiadó egy ilyen szoftver segítségével dönti el, hogy egy kézirat kiadásra alkalmas? Hogyan befolyásolja ez a kiadói munkát? Lehet, hogy az író sosem fogja megtudni, hogy miért utasították vissza a művét. Lehet, hogy csupán némi szerkesztői segítségre lenne szüksége és máris egy sikeres, nagy hatású mű kerülne a piacra. Ha egy intelligens keresőrendszer felismeri mely forrásokból kapunk számunkra igazán releváns információkat, majd hamarosan csak abból a forrásból értesülünk, akkor könnyedén zárt információbuborékban találhatjuk magunkat. Ez utóbbi már nem utópia, mindennapos dolog olyan közösségi médiafelületeken, mint a Facebook vagy a YouTube. Érvelhetünk amellett, hogy így csak a minket ténylegesen érdeklő és általunk megbízhatónak tartott információk érnek el, de ily módon könnyedén szem elől téveszthetünk olyan információs lelőhelyeket, amelyek érdekelhetnek minket. Nem is említve a súlyosabb helyzetet, ha esetleg az információbuborékunk téves adatokra alapoz. Ahhoz, hogy a gépi tanulás pontos információkkal szolgáljon, az algoritmus tanítására, képzésére van szükség, milliónyi adat gépi kiértékelésére. Azonban a régi adatokból szerzett tudás annyira lesz pontos, amennyire maguk az adatok pontosak.

Az információs szakemberek – köztük a könyvtárosok – szeretik az átláthatóságot, szeretik látni hogyan működnek a dolgok. A mélytanulás során a folyamat láthatatlan, nem tudjuk mi történik a bemenet és a kimenet két állapota között, ennélfogva elveszlik a személyes garancia arra vonatkozólag, hogy a találatok valóban pontosak lesznek. Ha ehhez hozzászámítjuk az interneten fellelhető tartalmak szervezetlenségét, sokszínűségét, illetve szétszórtságát, akkor könnyű belátni, hogy nem tudhatjuk biztosan, hogy a gép által talált információk megfelelőek számunkra, így mindent személyesen le kell ellenőriznünk. Elég csak visszagondolnunk bármely számunkra ismeretlen téma iránti Google keresésünk körülményeire, hogy belássuk olykor milyen időrabló tevékenység tud lenni. A legnagyobb gond azonban az, hogy fogalmunk sincs róla, hogy milyen egyéb források maradtak láthatatlanok számunkra a keresés során. A keresőalgoritmusok nem átláthatók, ipari titkot képeznek, ráadásul mivel a legtöbb keresés webáruházakra irányul, az algoritmusok többsége a kereskedelmi célú felhasználást tartja szem előtt, így nem könnyű egyéb téma teljeskörű feltérképezését megvalósítani gépi eszközökkel.

Ojala a bizalom és átláthatóság témáját illetően is aggályokat fogalmaz meg. A piaci szférában teljes mértékben megszokott a termékek fókuszcsoportok általi tesztelése, közvetlenül a piaci megjelenést megelőzően. Jó példa erre a kurrens hollywoodi szuperprodukciók sora, ahol a tesztközönség reakciója sokszor újraírásra-újraforgatásra ösztökéli a filmkészítőket. A digitális kor új dokumentumai, képek, videók, weboldalak, közösségi médiaposztok olyan mértékben változnak napról-napra, és olyan könnyen manipulálhatók, hogy az felveti a könyvtárak elsődleges megőrző funkciójának, valamint az ebből is fakadó könyvtárakba vetett bizalom létjogosultságát ezen új formátumok esetében. Ezek, az életünk szerves részévé váló elektronikus dokumentumok hosszú távú megőrzése bizony a könyvtárak egyik feladata lesz.

A gépi tanulással működő keresőalgoritmusok megjelenése megszüntette az információkeresési folyamatok átláthatóságát. Napjainkban ijesztő mértékben növekednek a téves információk, nem csupán szándékos álhírek és képmanipulációk révén, hanem jelentős az adatok tömeges félrecímkézése, hibás feltárása. És ugyebár ezek az adatok felelősek a mesterséges intelligencia tanításáért. Ha hibás a beviteli adat, hibás lesz a kimeneteli végeredmény is. Nem is említve, mikor MI-technológiát alkalmaznak manipulatív álhírek terjesztésére. A deep fake technológia lehetővé teszi, hogy például egy videón hamis kijelentést tegyen egy személy, vagy olyan cselekedetet hajtson végre, amelyre a valóságban nem került sor. Ahogy a technológia egyre kifinomultabbá válik, úgy lesz egyre nehezebb megkülönböztetni a valóságot a kitalációtól.

A big data és a mesterséges intelligencia igencsak kettős jelenség: egyrészt páratlan eszköz hatalmas mennyiségű adat áttekintésére és elemzésére, amellyel új kapukat nyithatunk az információiparban, másrészt pedig elképesztően hatékony eszköze a dezinformációnak és a félretájékoztatásnak. Egy biztos, a könyvtáros egyike lesz azon szakemberek csoportjának, akik segíthetnek navigálni az egyre átláthatatlanabb információdömpingben.



Kérdezd
a könyvtárost!