Samtal om övermänsklig artificiell intelligens (AI) öka. Men forskning har avslöjat svagheter i ett av de mest framgångsrika AI-systemen – en bot som spelar brädspelet Go och kan slå de bästa mänskliga spelarna i världen – vilket visar att en sådan överlägsenhet kan vara bräcklig. Studien väcker frågor om huruvida mer allmänna AI-system kan vara sårbara för sårbarheter som kan hota deras säkerhet och tillförlitlighet, och till och med deras anspråk på att vara "övermänskliga".

"Artikeln lämnar ett stort frågetecken om hur man uppnår det ambitiösa målet att bygga robusta, verkliga AI-agenter som folk kan lita på", säger Huan Zhang, datavetare vid University of Illinois Urbana-Champaign. Stephen Casper, datavetare vid Massachusetts Institute of Technology i Cambridge, tillägger: "Det ger några av de starkaste bevisen hittills på att det är svårt att implementera avancerade modeller så tillförlitligt som man skulle vilja."

Analysen i juni publiceras online som ett förtryck 1och har ännu inte granskats av fackmän, använder så kallade motstridiga attacker - AI-systemets indata som syftar till att få systemen att göra fel, oavsett om det är i forskningssyfte eller för skadliga syften. Till exempel kan vissa ingångar "jailbreaka" chatbots genom att avge skadlig information som de normalt bör undertrycka.

I Go turas två spelare om att placera svarta och vita stenar på ett rutnät för att omge och fånga den andra spelarens stenar. År 2022 rapporterade forskare om träna motstridiga AI-robotar för att besegra KataGo 2, det bästa Go-playing AI-systemet med öppen källkod som vanligtvis slår de bästa människorna handlöst (och handlöst). Deras bots hittade sårbarheter som regelbundet besegrade KataGo, även om botsarna inte var särskilt bra annars - mänskliga amatörer kunde besegra dem. Dessutom kunde människor förstå och använda robotarnas knep för att besegra KataGo.

Utnyttjande av KataGo

Var detta en engångsföreteelse, eller pekade detta arbete på en grundläggande svaghet i KataGo – och i förlängningen andra AI-system med till synes övermänskliga förmågor? För att undersöka detta använder forskare under ledning av Adam Gleave, verkställande direktör för FAR AI, en ideell forskningsorganisation i Berkeley, Kalifornien, och medförfattare till 2022-tidningen, AI 2, motståndsrobotar för att testa tre sätt att försvara Go AIs mot sådana attacker 1.

Det första försvaret var ett som KataGo-utvecklarna redan hade använt efter attackerna 2022: ge KataGo exempel på spelsituationer som var inblandade i attackerna och lät det spela för att lära sig att spela mot dessa situationer. Detta liknar hur man allmänt lär sig att spela Go. Författarna till den senaste tidningen fann dock att en motståndsrobot lärde sig att slå även denna uppdaterade version av KataGo och vann 91 % av gångerna.

Den andra defensiva strategin som Gleaves team försökte var iterativ: träna en version av KataGo mot motståndsrobotar, sedan träna angripare mot den uppdaterade KataGo, och så vidare, i nio omgångar. Men inte ens det ledde till en oövervinnlig version av KataGo. Angriparna fortsatte att hitta sårbarheter, och den senaste attacken besegrade KataGo 81 % av gångerna.

Som en tredje försvarsstrategi tränade forskarna ett nytt Go-playing AI-system från grunden. KataGo är baserat på en beräkningsmodell känd som ett konvolutionellt neuralt nätverk (CNN). Forskarna misstänkte att CNN kunde fokusera för mycket på lokala detaljer och missa globala mönster. Så de byggde en Go-spelare med ett alternativ neurala nätverk kallas vision transformator (ViT). Men deras motståndarbot hittade en ny attack som hjälpte den att vinna mot ViT-systemet 78 % av gångerna.

Svaga motståndare

I alla dessa fall tränades de kontradiktoriska botarna - även om de kan slå KataGo och andra ledande Go-spelsystem - att upptäcka dolda sårbarheter i andra AI:er, snarare än att vara väl avrundade strateger. "Motståndarna är fortfarande ganska svaga - vi slår dem ganska enkelt", säger Gleave.

Och eftersom människor kan använda motståndsrobotarnas taktik för att besegra ledande Go AI:er, är det fortfarande meningsfullt att kalla dessa system för övermänskliga? "Det är en bra fråga och en som jag definitivt har brottats med," säger Gleave. "Vi började säga, 'typiskt övermänskliga'." David Wu, en datavetare i New York som först utvecklade KataGo, säger att starka Go AI:er är "övermänskliga i genomsnitt", men inte "i de värsta fallen."

Gleave säger att fynden kan ha långtgående konsekvenser för AI-system, inklusive stora språkmodeller som ligger bakom chatbots som ChatGPT. "Det viktigaste för AI är att dessa sårbarheter kommer att vara svåra att åtgärda", säger Gleave. "Om vi ​​inte kan lösa problemet i ett enkelt område som Go, så verkar det finnas små utsikter att fixa liknande problem som jailbreaks i ChatGPT inom en snar framtid."

Vad resultaten betyder för möjligheten att skapa AI som på ett heltäckande sätt överträffar mänskliga förmågor är mindre tydligt, säger Zhang. "Även om detta på ytan tyder på att människor kan behålla viktiga kognitiva fördelar jämfört med AI under en tid", säger han, "tror jag att nyckelinsikten är att Vi förstår ännu inte helt de AI-system vi bygger idag.”