Överdriven artificiell intelligens (KI) Ökning. Värld som visar att sådan överlägsenhet kan vara bräcklig.

"Papperet lämnar ett stort frågetecken om hur det ambitiösa målet kan uppnås för att bygga robusta AI-agenter i den verkliga världen som människor kan lita på," säger Huan Zhang, datavetare vid University of Illinois Urbana-Champay. Stephen Casper, en datavetare vid Massachusetts Institute of Technology i Cambridge, tillägger: "Hittills har det tillhandahållit några av de starkaste bevisen på att det är svårt att implementera avancerade modeller så pålitligt som du vill."

Analysen att i juni Data-Action = "Anchor-Link" Data-Track label = "Go to the reference" Data Track-Category = "Sources"> 1 and has not yet been peer-reviewed uses the AI ​​​​systems Entries Placera som syftar till att fresta systemen till fel , vare sig det är för forskningsändamål eller för skadliga ändamål. Till exempel kan vissa poster "jailbreaks" chatbots genom att utfärda skadlig information som du normalt bör undertrycka.

När du går, placerar två spelare växelvis svarta och vita stenar på ett rutnät för att omge och fånga den andra spelarens stenar. In 2022, researchers reported about Defeated by katago 2 , Adversarielle Bots to Testa tre alternativ, för att försvara Go-kis mot sådana attacker

1 .

Det första försvaret var ett som Katago -utvecklarna redan hade använt efter 2022 attackerna: Katago -exempel på spelsituationer som var involverade i attackerna och låt det spela för att lära sig spela mot dessa situationer. Detta liknar det eftersom det i allmänhet lärde sig. Författarna till de senaste tidningarna fann emellertid att ett motsatser erbjuder att slå denna uppdaterade version av Katago och vann 91 % av tiden.

Den andra försvarsstrategin som Gleave -teamet försökte var iterativ: att utbilda en version av Katago mot AderSarielle -bots, sedan för att träna angripare mot den uppdaterade Katago och så vidare i nio omgångar. Men det ledde inte heller till en oövervinnlig version av Katago. Angriparna fortsatte att hitta svagheter, med den sista attacken Katago besegrade 81 % av tiden.

Som den tredje försvarsstrategin utbildade forskarna ett nytt go-playing AI-system från grunden. Katago är baserad på en beräkningsmodell känd som Convolutional Neural Network (CNN). Forskarna misstänkte att CNN: er kunde koncentrera sig för mycket på lokala detaljer och förbise globala mönster. Therefore, they built a go player with an alternative Neural Network called Vision Transformer (Vit). Men hennes motsatsbot hittade en ny attack som hjälpte honom att vinna 78 % av tiden mot VIT -systemet.

Svag motståndare

I alla dessa fall var de motsatta bots-även om de kunde slå Katago och andra ledande go-playing-system utbildade för att upptäcka dolda svagheter i andra AIS och inte vara mångsidiga strateger. "Motståndarna är fortfarande ganska svaga - vi besegrade dem ganska lätt," säger Gleave.

Och eftersom människor kan använda taktiken i de motsatta bots för att besegra ledande go-kis, är det vettigt att kalla dessa system övermänskliga? "Det här är en fantastisk fråga som jag definitivt brottade", säger Gleave. "Vi har börjat säga" vanligtvis övermänskligt "." David Wu, en datavetare i New York, som först utvecklade Katago, säger att starka go-kis är "i genomsnitt övermänskliga", men inte "i värsta fall".

Gleave säger att resultaten kan ha långtgående effekter på AI-system, inklusive Stora språkmodeller som är baserade på chatbots som chatgpt . "Det viktigaste fyndet för AI är att dessa svaga punkter kommer att vara svårt att eliminera", säger Gleave. "Om vi ​​inte kan lösa problemet i ett enkelt område som GO, verkar det finnas lite möjligheter inom en snar framtid att lösa liknande problem som jailbreaks i Chatt."

Vad resultaten betyder för möjligheten att skapa en AI som överskrider mänskliga färdigheter i stor utsträckning är mindre tydligt, säger Zhang. "Även om detta indikerar ytligt att människor fortfarande kan hålla viktiga kognitiva fördelar jämfört med AI," säger han, "jag tror att den avgörande kunskapen är att Vi förstår ännu inte helt AI-systemen som vi bygger idag .