Samtaler vedr overmenneskelig kunstig intelligens (AI) øge. Men forskning har afsløret svagheder i et af de mest succesrige AI-systemer - en bot, der spiller brætspillet Go og kan slå de bedste menneskelige spillere i verden - hvilket viser, at en sådan overlegenhed kan være skrøbelig. Undersøgelsen rejser spørgsmål om, hvorvidt mere generelle AI-systemer kan være sårbare over for sårbarheder, der kan true deres sikkerhed og pålidelighed, og endda deres påstand om at være 'overmenneskelige'.
"Avisen efterlader et stort spørgsmålstegn ved, hvordan man kan nå det ambitiøse mål om at bygge robuste, virkelige AI-agenter, som folk kan stole på," siger Huan Zhang, en datalog ved University of Illinois Urbana-Champaign. Stephen Casper, en datalog ved Massachusetts Institute of Technology i Cambridge, tilføjer: "Det giver nogle af de stærkeste beviser til dato, at det er svært at implementere avancerede modeller så pålideligt, som man kunne ønske sig."
Analysen i juni udgivet online som fortryk 1og er endnu ikke blevet peer-reviewet, bruger såkaldte modstridende angreb - AI-systemets input som har til formål at få systemerne til at lave fejl, hvad enten det er til forskningsformål eller til ondsindede formål. For eksempel kan visse input 'jailbreak' chatbots ved at udsende ondsindet information, som de normalt bør undertrykke.
I Go skiftes to spillere til at placere sorte og hvide sten på et gitter for at omringe og fange den anden spillers sten. I 2022 rapporterede forskere om træne modstandsdygtige AI-bots til at besejre KataGo 2, det bedste open-source Go-playing AI-system, der normalt slår de bedste mennesker med hånden (og håndløst). Deres bots fandt sårbarheder, der regelmæssigt besejrede KataGo, selvom bots ellers ikke var særlig gode - menneskelige amatører kunne besejre dem. Derudover var mennesker i stand til at forstå og bruge bots' tricks til at besejre KataGo.
Udnyttelse af KataGo
Var dette et enkeltstående arbejde, eller pegede dette arbejde på en grundlæggende svaghed i KataGo – og i forlængelse heraf andre AI-systemer med tilsyneladende overmenneskelige evner? For at undersøge dette bruger forskere ledet af Adam Gleave, administrerende direktør for FAR AI, en nonprofit forskningsorganisation i Berkeley, Californien, og medforfatter af 2022 papiret, AI 2, modstridende bots for at teste tre måder at forsvare Go AI'er mod sådanne angreb 1.
Det første forsvar var et, som KataGo-udviklerne allerede havde brugt efter angrebene i 2022: at give KataGo eksempler på spilsituationer, der var involveret i angrebene, og lade det spille for at lære at spille mod disse situationer. Dette svarer til, hvordan man generelt lærer at spille Go. Men forfatterne af det seneste papir fandt ud af, at en modstander-bot lærte at slå selv denne opdaterede version af KataGo og vandt 91% af tiden.
Den anden defensive strategi, som Gleaves hold prøvede, var iterativ: Træning af en version af KataGo mod modstridende bots, træning af angribere mod den opdaterede KataGo, og så videre, i ni runder. Men selv det førte ikke til en uovervindelig version af KataGo. Angriberne fortsatte med at finde sårbarheder, hvor det seneste angreb besejrede KataGo 81 % af tiden.
Som en tredje forsvarsstrategi trænede forskerne et nyt Go-playing AI-system fra bunden. KataGo er baseret på en beregningsmodel kendt som et konvolutionelt neuralt netværk (CNN). Forskerne havde mistanke om, at CNN'er kunne fokusere for meget på lokale detaljer og savne globale mønstre. Så de byggede en Go-afspiller med et alternativ neurale netværk kaldet vision transformer (ViT). Men deres modstander-bot fandt et nyt angreb, der hjalp den med at vinde mod ViT-systemet 78% af tiden.
Svage modstandere
I alle disse tilfælde blev de modstridende bots - selvom de var i stand til at slå KataGo og andre førende Go-spilsystemer - trænet til at opdage skjulte sårbarheder i andre AI'er i stedet for at være velafrundede strateger. "Modstanderne er stadig ret svage - vi slog dem ret nemt," siger Gleave.
Og da mennesker er i stand til at bruge de modstridende bots taktik til at besejre førende Go AI'er, giver det så stadig mening at kalde disse systemer for overmenneskelige? "Det er et godt spørgsmål og et, som jeg bestemt har kæmpet med," siger Gleave. "Vi begyndte at sige, 'typisk overmenneske'." David Wu, en datalog i New York, der først udviklede KataGo, siger, at stærke Go AI'er er "overmenneskelige i gennemsnit", men ikke "i de værste tilfælde."
Gleave siger, at resultaterne kan have vidtrækkende konsekvenser for AI-systemer, herunder store sprogmodeller, der ligger til grund for chatbots som ChatGPT. "Nøglen til AI er, at disse sårbarheder vil være svære at løse," siger Gleave. "Hvis vi ikke kan løse problemet i et simpelt område som Go, så ser der ud til at være ringe udsigt til at løse lignende problemer som jailbreaks i ChatGPT i den nærmeste fremtid."
Hvad resultaterne betyder for muligheden for at skabe kunstig intelligens, der i vid udstrækning overgår menneskelige evner, er mindre klart, siger Zhang. "Selvom dette på overfladen tyder på, at mennesker kan bevare vigtige kognitive fordele i forhold til AI i nogen tid," siger han, "tror jeg, at den vigtigste indsigt er, at Vi forstår endnu ikke helt de AI-systemer, vi bygger i dag."
