Kan AI være overmenneskelig? Defekter i den øverste spiller bot rejser tvivl

Kan AI være overmenneskelig? Defekter i den øverste spiller bot rejser tvivl
"Papiret efterlader et stort spørgsmålstegn om, hvordan det ambitiøse mål kan nås for at opbygge robuste AI-agenter i den virkelige verden, som folk kan stole på," siger Huan Zhang, computerforsker ved University of Illinois Urbana-Champay. Stephen Casper, en computerforsker ved Massachusetts Institute of Technology i Cambridge, tilføjer: "Indtil videre har det leveret nogle af de stærkeste beviser for, at det er vanskeligt at implementere avancerede modeller så pålideligt, som du vil." M = "Klik" data-action = "anchor-link" data-track label = "gå til referencen" data track-category = "kilder"> 1 og er endnu ikke blevet peer-reviewed bruger AI Systems-poster Sted, der sigter mod at friste systemerne til fejl , hvad enten det er til forskningsformål eller til ondsindede formål. For eksempel kan visse poster 'jailbreaks' chatbots ved at udstede skadelige oplysninger, som du normalt skal undertrykke.
Når farten, placerer to spillere skiftevis sort / hvide sten på et gitter for at omringe og fange den anden spillers sten. I 2022 rapporterede forskere om besejret af katago
Det første forsvar var et, som Katago -udviklerne allerede havde brugt efter 2022 -angrebene: Katago -eksempler på spilsituationer, der var involveret i angrebene, og lod det spille for at lære at spille mod disse situationer. Dette ligner det, som det generelt lærte farten. Forfatterne af de seneste papirer fandt imidlertid, at et modstridende tilbud lærte at slå denne opdaterede version af Katago og vandt 91 % af tiden.
Den anden forsvarsstrategi, som Gleave -teamet prøvede, var iterativt: at træne en version af Katago mod Adversarielle Bots, derefter at træne angribere mod den opdaterede Katago og så videre i ni runder. Men det førte heller ikke til en uovervindelig version af Katago. Angriberne fortsatte med at finde svagheder, med det sidste angreb, Katago besejrede 81 % af tiden.
Som den tredje forsvarsstrategi trænede forskerne et nyt go-playing AI-system fra bunden. Katago er baseret på en beregningsmodel kendt som Convolutional Neural Network (CNN). Forskerne mistænkte, at CNN'er kunne koncentrere sig for meget om lokale detaljer og overse globale mønstre. Derfor byggede de en go-spiller med et alternativ
svag modstander
I alle disse tilfælde var de modstridende bots-selvom de var i stand til at slå Katago og andre førende go-playing-systemer, der blev trænet til at opdage skjulte svagheder i andre AI'er og ikke for at være alsidige strateger. "Modstanderne er stadig ret svage - vi besejrede dem ganske let," siger Gleave.
Og da folk er i stand til at bruge de modstridende bots taktik til at besejre førende go-kis, giver det mening at kalde disse systemer overmenneskelige? "Dette er et godt spørgsmål, som jeg bestemt kæmpede for," siger Gleave. "Vi er begyndt at sige" typisk overmenneskelig "." David Wu, en computerforsker i New York, der først udviklede Katago, siger, at stærke go-kis er "i gennemsnit overmenneskelige", men ikke "i de værste tilfælde".
Gleave siger, at resultaterne kunne have vidtrækkende effekter på AI-systemer, herunder Store sprogmodeller, der er baseret på chatbots såsom chatgpt . "Det vigtigste fund for AI er, at disse svage punkter vil være vanskelige at eliminere," siger Gleave. "Hvis vi ikke kan løse problemet i et simpelt område som Go, ser det ud til at være lidt udsigter i den nærmeste fremtid med at løse lignende problemer som jailbreaks i Chatt."
Hvad resultaterne betyder for muligheden for at skabe en AI, der overskrider menneskelige færdigheder i vid udstrækning, er mindre klar, siger Zhang. "Selvom dette indikerer overfladisk, at folk stadig kan holde vigtige kognitive fordele i forhold til AI," siger han, "jeg tror, at den afgørende viden er, at Vi forstår endnu ikke fuldt ud AI-systemerne, som vi bygger i dag
- >>
Tseng, T., McLean, E., Pelrine, K., Wang, T. T. & Gleave, A. Preprint på arxiv https://doi.org/10.48550/arxiv.2406.12843 (2024).
- >
Wang, T. T. et al. https://doi.org/10.48550/arxiv.2211.00241 .