Samtaler om overmenneskelig kunstig intelligens (AI) øke. Men forskning har avslørt svakheter i et av de mest vellykkede AI-systemene – en bot som spiller brettspillet Go og kan slå de beste menneskelige spillerne i verden – og viser at en slik overlegenhet kan være skjør. Studien reiser spørsmål om mer generelle AI-systemer kan være sårbare for sårbarheter som kan true deres sikkerhet og pålitelighet, og til og med deres påstand om å være "overmenneskelige".
"Artikkelen etterlater et stort spørsmålstegn om hvordan man kan nå det ambisiøse målet om å bygge robuste, virkelige AI-agenter som folk kan stole på," sier Huan Zhang, en dataforsker ved University of Illinois Urbana-Champaign. Stephen Casper, en dataforsker ved Massachusetts Institute of Technology i Cambridge, legger til: "Det gir noen av de sterkeste bevisene ennå på at det er vanskelig å implementere avanserte modeller så pålitelig som man ønsker."
Analysen i juni publisert på nett som et forhåndstrykk 1og har ennå ikke blitt fagfellevurdert, bruker såkalte motstandsangrep - AI-systemets input som tar sikte på å få systemene til å gjøre feil, enten det er for forskningsformål eller for ondsinnede formål. For eksempel kan visse innganger "jailbreak" chatbots ved å sende ut ondsinnet informasjon som de normalt bør undertrykke.
I Go bytter to spillere på å plassere svarte og hvite steiner på et rutenett for å omringe og fange den andre spillerens steiner. I 2022 rapporterte forskere om trene motstandsdyktige AI-roboter for å beseire KataGo 2, det beste Go-playing AI-systemet med åpen kildekode som vanligvis slår de beste menneskene med hånden (og håndløst). Robotene deres fant sårbarheter som regelmessig beseiret KataGo, selv om robotene ellers ikke var særlig gode - menneskelige amatører kunne beseire dem. I tillegg var mennesker i stand til å forstå og bruke robotenes triks for å beseire KataGo.
Utnyttelse av KataGo
Var dette en engangstilfelle, eller pekte dette arbeidet på en grunnleggende svakhet i KataGo – og i forlengelsen av andre AI-systemer med tilsynelatende overmenneskelige evner? For å undersøke dette bruker forskere ledet av Adam Gleave, administrerende direktør for FAR AI, en ideell forskningsorganisasjon i Berkeley, California, og medforfatter av 2022-artikkelen, AI 2, motstridende roboter for å teste tre måter å forsvare Go AI-er mot slike angrep 1.
Det første forsvaret var et som KataGo-utviklerne allerede hadde brukt etter angrepene i 2022: å gi KataGo eksempler på spillsituasjoner som var involvert i angrepene og la det spille for å lære å spille mot disse situasjonene. Dette ligner på hvordan det vanligvis læres å spille Go. Forfatterne av det siste papiret fant imidlertid ut at en motstridende bot lærte å slå selv denne oppdaterte versjonen av KataGo og vant 91 % av tiden.
Den andre defensive strategien Gleaves team prøvde var iterativ: å trene en versjon av KataGo mot kontradiktoriske roboter, deretter trene angripere mot den oppdaterte KataGo, og så videre, i ni runder. Men selv det førte ikke til en uovervinnelig versjon av KataGo. Angriperne fortsatte å finne sårbarheter, med det siste angrepet som beseiret KataGo 81 % av tiden.
Som en tredje forsvarsstrategi trente forskerne opp et nytt Go-playing AI-system fra bunnen av. KataGo er basert på en beregningsmodell kjent som et konvolusjonelt nevralt nettverk (CNN). Forskerne mistenkte at CNN-er kan fokusere for mye på lokale detaljer og savne globale mønstre. Så de bygde en Go-spiller med et alternativ nevrale nettverk kalt vision transformator (ViT). Men deres motstandsrobot fant et nytt angrep som hjalp den til å vinne mot ViT-systemet 78 % av tiden.
Svake motstandere
I alle disse tilfellene ble de motstridende robotene - selv om de var i stand til å slå KataGo og andre ledende Go-spillesystemer - opplært til å oppdage skjulte sårbarheter i andre AI-er, i stedet for å være godt avrundede strateger. "Motstanderne er fortsatt ganske svake - vi slår dem ganske enkelt," sier Gleave.
Og siden mennesker er i stand til å bruke taktikken til motstridende roboter for å beseire ledende Go AI-er, gir det fortsatt mening å kalle disse systemene overmenneskelige? "Det er et flott spørsmål og et som jeg definitivt har kjempet med," sier Gleave. "Vi begynte å si "typisk overmenneskelig." David Wu, en dataforsker i New York som først utviklet KataGo, sier at sterke Go AI-er er «overmenneskelige i gjennomsnitt», men ikke «i de verste tilfellene».
Gleave sier at funnene kan ha vidtrekkende implikasjoner for AI-systemer, inkludert store språkmodeller som ligger til grunn for chatbots som ChatGPT. "Nøkkelen for AI er at disse sårbarhetene vil være vanskelige å håndtere," sier Gleave. "Hvis vi ikke kan løse problemet i et enkelt område som Go, så ser det ut til å være lite utsikter til å fikse lignende problemer som jailbreaks i ChatGPT i nær fremtid."
Hva resultatene betyr for muligheten for å lage AI som overgår menneskelige evner, er mindre klart, sier Zhang. "Selv om dette på overflaten antyder at mennesker kan beholde viktige kognitive fordeler over AI i noen tid," sier han, "tror jeg at nøkkelinnsikten er at Vi forstår ennå ikke helt AI-systemene vi bygger i dag."
