Pogovori o nadčloveška umetna inteligenca (AI) povečanje. Toda raziskave so razkrile slabosti v enem najuspešnejših sistemov umetne inteligence – robotu, ki igra namizno igro Go in lahko premaga najboljše človeške igralce na svetu – kar kaže, da je takšna premoč lahko krhka. Študija odpira vprašanja o tem, ali bi lahko bili bolj splošni sistemi umetne inteligence občutljivi na ranljivosti, ki bi lahko ogrozile njihovo varnost in zanesljivost ter celo njihovo trditev, da so "nadčloveški".
"Papir pušča velik vprašaj o tem, kako doseči ambiciozen cilj izgradnje robustnih agentov umetne inteligence v resničnem svetu, ki jim lahko ljudje zaupajo," pravi Huan Zhang, računalniški znanstvenik na Univerzi Illinois Urbana-Champaign. Stephen Casper, računalniški znanstvenik na Massachusetts Institute of Technology v Cambridgeu, dodaja: "Zagotavlja nekaj najmočnejših dokazov doslej, da je napredne modele težko implementirati tako zanesljivo, kot bi si želeli."
Analiza junija objavljen na spletu kot prednatis 1in še ni bil strokovno pregledan, uporablja tako imenovane kontradiktorne napade - vnos sistemov AI katerih namen je povzročiti, da sistemi delajo napake, bodisi za raziskovalne namene ali za zlonamerne namene. Določeni vnosi lahko na primer "pobegnejo iz zapora" klepetalne robote z oddajanjem zlonamernih informacij, ki bi jih morali običajno zatreti.
V igri Go dva igralca izmenično postavljata črne in bele kamne na mrežo, da obkrožita in ujameta kamne drugega igralca. Leta 2022 so raziskovalci poročali o usposabljanje tekmovalnih robotov AI za poraz KataGo 2, najboljši odprtokodni sistem umetne inteligence za igranje Go, ki običajno z roko (in brez roke) premaga najboljše ljudi. Njihovi roboti so našli ranljivosti, ki so redno premagale KataGo, čeprav roboti sicer niso bili zelo dobri – človeški amaterji bi jih lahko premagali. Poleg tega so ljudje lahko razumeli in uporabili trike botov, da bi premagali KataGo.
Izkoriščanje KataGo
Ali je bilo to enkratno ali pa je to delo pokazalo na temeljno slabost KataGo – in posledično drugih sistemov umetne inteligence z na videz nadčloveškimi sposobnostmi? Da bi to raziskali, raziskovalci pod vodstvom Adama Gleavea, izvršnega direktorja FAR AI, neprofitne raziskovalne organizacije v Berkeleyju v Kaliforniji, in soavtorja prispevka iz leta 2022, uporabljajo umetno inteligenco. 2, kontradiktorni roboti za preizkušanje treh načinov obrambe Go AI pred takšnimi napadi 1.
Prva obramba je bila tista, ki so jo razvijalci KataGo uporabili že po napadih leta 2022: dali so KataGo primere situacij v igri, ki so bile vključene v napade, in jo pustili igrati, da se je naučil igrati proti tem situacijam. To je podobno temu, kako se na splošno uči igrati Go. Vendar pa so avtorji zadnjega članka ugotovili, da se je nasprotniški bot naučil premagati celo to posodobljeno različico KataGo in zmagal v 91% primerov.
Druga obrambna strategija, ki jo je preizkusila Gleavejeva ekipa, je bila iterativna: usposabljanje različice KataGo proti nasprotniškim botom, nato usposabljanje napadalcev proti posodobljeni KataGo in tako naprej, devet krogov. Toda tudi to ni vodilo do nepremagljive različice KataGo. Napadalci so nadaljevali z iskanjem ranljivosti, pri čemer je zadnji napad premagal KataGo v 81 % primerov.
Kot tretjo obrambno strategijo so raziskovalci iz nič usposobili nov sistem umetne inteligence Go-playing. KataGo temelji na računalniškem modelu, znanem kot konvolucijska nevronska mreža (CNN). Raziskovalci so domnevali, da se CNN morda preveč osredotočajo na lokalne podrobnosti in zgrešijo globalne vzorce. Tako so zgradili predvajalnik Go z alternativo nevronska mreža imenovan transformator vida (ViT). Toda njihov nasprotniški bot je našel nov napad, ki mu je pomagal zmagati proti sistemu ViT v 78 % časa.
Šibki nasprotniki
V vseh teh primerih so bili nasprotniški roboti – čeprav so sposobni premagati KataGo in druge vodilne sisteme za igranje Go – usposobljeni za odkrivanje skritih ranljivosti v drugih AI-jih, namesto da bi bili dobro zaokroženi strategi. "Nasprotniki so še vedno precej šibki - premagali smo jih precej zlahka," pravi Gleave.
In ker lahko ljudje uporabijo taktike kontradiktornih botov, da premagajo vodilne Go AI, ali je še vedno smiselno te sisteme imenovati nadčloveški? "To je odlično vprašanje, s katerim sem se zagotovo boril," pravi Gleave. "Začeli smo govoriti, 'tipično nadčloveško'." David Wu, računalniški znanstvenik iz New Yorka, ki je prvi razvil KataGo, pravi, da so močni Go AI "v povprečju nadčloveški", vendar ne "v najslabših primerih".
Gleave pravi, da bi lahko imele ugotovitve daljnosežne posledice za sisteme umetne inteligence, vključno z veliki jezikovni modeli, ki so osnova chatbotov, kot je ChatGPT. »Ključna ugotovitev za AI je, da bo te ranljivosti težko odpraviti,« pravi Gleave. "Če ne moremo rešiti težave na preprostem področju, kot je Go, potem se zdi malo možnosti, da bi v bližnji prihodnosti odpravili podobne težave, kot je pobeg iz zapora v ChatGPT."
Kaj rezultati pomenijo za možnost ustvarjanja AI, ki celovito presega človeške zmožnosti, je manj jasno, pravi Zhang. »Čeprav na videz to nakazuje, da lahko ljudje nekaj časa ohranimo pomembne kognitivne prednosti pred umetno inteligenco,« pravi, »verjamem, da je ključni vpogled v tem, da Ne razumemo še povsem sistemov AI, ki jih gradimo danes.”
