Razgovori o nadljudska umjetna inteligencija (AI) povećati. Ali istraživanje je otkrilo slabosti u jednom od najuspješnijih AI sustava - bot koji igra društvenu igru Go i može pobijediti najbolje ljudske igrače na svijetu - pokazujući da takva superiornost može biti krhka. Studija postavlja pitanja o tome mogu li opći sustavi umjetne inteligencije biti osjetljivi na ranjivosti koje bi mogle ugroziti njihovu sigurnost i pouzdanost, pa čak i njihovu tvrdnju da su 'nadljudski'.
"Papir ostavlja veliki upitnik o tome kako postići ambiciozni cilj izgradnje robusnih agenata umjetne inteligencije iz stvarnog svijeta kojima ljudi mogu vjerovati", kaže Huan Zhang, računalni znanstvenik sa Sveučilišta Illinois Urbana-Champaign. Stephen Casper, računalni znanstvenik s Massachusetts Institute of Technology u Cambridgeu, dodaje: "Pruža neke od najjačih dokaza dosad da je teško implementirati napredne modele onoliko pouzdano koliko bi se željelo."
Analiza u lipnju objavljen online kao predtisak 1i još nije recenzirana, koristi takozvane kontradiktorne napade - unos AI sustava kojima je cilj uzrokovati pogreške u sustavima, bilo u istraživačke svrhe ili u zlonamjerne svrhe. Na primjer, određeni unosi mogu 'jailbreak' chatbotove emitiranjem zlonamjernih informacija koje bi inače trebali potisnuti.
U igri Go, dva igrača naizmjence stavljaju crno i bijelo kamenje na rešetku kako bi okružili i zarobili kamenje drugog igrača. Istraživači su 2022. izvijestili o treniranje protivničkih AI robota da poraze KataGo 2, najbolji Go-playing AI sustav otvorenog koda koji obično ručno (i bez ruku) pobjeđuje najbolje ljude. Njihovi botovi pronašli su ranjivosti koje su redovito pobjeđivale KataGo, iako botovi inače nisu bili baš dobri - ljudski amateri su ih mogli poraziti. Osim toga, ljudi su mogli razumjeti i upotrijebiti trikove botova kako bi porazili KataGo.
Iskorištavanje KataGo-a
Je li ovo bio jednokratan slučaj ili je ovaj rad ukazao na temeljnu slabost KataGoa – i, prema tome, drugih AI sustava s naizgled nadljudskim sposobnostima? Kako bi to istražili, istraživači predvođeni Adamom Gleaveom, izvršnim direktorom FAR AI, neprofitne istraživačke organizacije u Berkeleyju, Kalifornija, i koautorom rada iz 2022., koriste AI 2, protivnički roboti za testiranje tri načina obrane Go AI-ja od takvih napada 1.
Prva obrana bila je ona koju su KataGo programeri već koristili nakon napada 2022.: dajući KataGou primjere situacija u igricama koje su bile uključene u napade i puštajući ga da se igra kako bi naučio kako igrati protiv tih situacija. Ovo je slično načinu na koji se općenito uči igrati Go. Međutim, autori najnovijeg rada otkrili su da je protivnički bot naučio pobijediti čak i ovu ažuriranu verziju KataGo-a i pobijedio u 91% slučajeva.
Druga obrambena strategija koju je Gleaveov tim pokušao bila je iterativna: obuka verzije KataGo-a protiv protivničkih robota, zatim obuka napadača protiv ažuriranog KataGo-a, i tako dalje, devet rundi. Ali ni to nije dovelo do nepobjedive verzije KataGoa. Napadači su nastavili pronalaziti ranjivosti, a posljednji napad porazio je KataGo u 81% slučajeva.
Kao treću obrambenu strategiju, istraživači su ispočetka trenirali novi Go-playing AI sustav. KataGo se temelji na računskom modelu poznatom kao konvolucijska neuronska mreža (CNN). Istraživači su sumnjali da bi se CNN previše fokusirao na lokalne detalje i propustio globalne obrasce. Tako su napravili Go player s alternativom neuronska mreža nazvan transformator vida (ViT). Ali njihov suparnički bot pronašao je novi napad koji mu je pomogao da pobijedi ViT sustav u 78% slučajeva.
Slabi protivnici
U svim tim slučajevima, suparnički botovi - iako sposobni pobijediti KataGo i druge vodeće Go-playing sustave - bili su obučeni da otkriju skrivene ranjivosti u drugim AI-jevima, umjesto da budu dobro zaokruženi stratezi. "Protivnici su još uvijek prilično slabi - pobijedili smo ih prilično lako", kaže Gleave.
A budući da ljudi mogu koristiti taktiku suparničkih botova za poraz vodećih Go AI-jeva, ima li i dalje smisla te sustave nazivati nadljudskima? "To je sjajno pitanje s kojim sam se definitivno borio", kaže Gleave. "Počeli smo govoriti, 'tipično nadljudski'." David Wu, računalni znanstvenik iz New Yorka koji je prvi razvio KataGo, kaže da su jaki Go AI-ovi "nadljudski u prosjeku", ali ne i "u najgorim slučajevima".
Gleave kaže da bi otkrića mogla imati dalekosežne implikacije na sustave umjetne inteligencije, uključujući veliki jezični modeli koji su u osnovi chatbota kao što je ChatGPT. "Ključni zaključak za umjetnu inteligenciju je da će te ranjivosti biti teško riješiti", kaže Gleave. "Ako ne možemo riješiti problem u jednostavnom području kao što je Go, čini se da nema mnogo izgleda za rješavanje sličnih problema kao što su bjekstva iz zatvora u ChatGPT-u u bliskoj budućnosti."
Manje je jasno što rezultati znače za mogućnost stvaranja umjetne inteligencije koja sveobuhvatno nadilazi ljudske sposobnosti, kaže Zhang. "Iako na površini ovo sugerira da bi ljudi mogli zadržati važne kognitivne prednosti u odnosu na umjetnu inteligenciju neko vrijeme", kaže on, "vjerujem da je ključni uvid da Još uvijek ne razumijemo u potpunosti AI sustave koje danas gradimo.”
