Kan AI være overmenneskelig? Defekter i toppspilleren Bot reiser tvil

Kan AI være overmenneskelig? Defekter i toppspilleren Bot reiser tvil
snakker om Technology/ilya-sutske-openai-superintelligence.html" data-track "data-label = "https://www.nytimes.com/2024/19/technology/ilya-sutske-openai-superintelligence.html" Data-track-category = "Body Text Link"> Overdreven kunstig og kan ha en godhet som er en godhet. Spillere i verden-som viser at slik overlegenhet kan være skjøre
"Oppgaven etterlater et stort spørsmålstegn om hvordan det ambisiøse målet kan oppnås for å bygge robuste AI-agenter i den virkelige verden som folk kan stole på," sier Huan Zhang, dataforsker ved University of Illinois Urbana-Champay. Stephen Casper, dataforsker ved Massachusetts Institute of Technology i Cambridge, legger til: "Så langt har det gitt noen av de sterkeste bevisene for at det er vanskelig å implementere avanserte modeller så pålitelig som du vil."
Analysen som i juni 1 og har ennå ikke blitt fagfellevurdert bruker AI Systems Entries Plasser som tar sikte på å friste systemene til feil , det være seg til forskningsformål eller til ondsinnede formål. For eksempel kan visse oppføringer 'jailbreaks' chatbots ved å utstede skadelig informasjon som du normalt bør undertrykke.
Når The Go, plasserer to spillere vekselvis svart -hvite steiner på et rutenett for å omgi og fange den andre spillerens steiner. I 2022 rapporterte forskere om , Adversarielle Bots for å teste tre alternativer, for å forsvare go-kis mot slike angrep Det første forsvaret var en som Katago -utviklerne allerede hadde brukt etter 2022 -angrepene: Katago -eksempler på spillsituasjoner som var involvert i angrepene og lot det spille for å lære å spille mot disse situasjonene. Dette ligner det som det generelt lærte farten. Forfatterne av de siste avisene fant imidlertid at et motstridende tilbud lærte å slå denne oppdaterte versjonen av Katago og vant 91 % av tiden. Den andre forsvarsstrategien som Gleave -teamet prøvde var iterativ: å trene en versjon av Katago mot Adversarielle Bots, for deretter å trene angripere mot den oppdaterte Katago og så videre i ni runder. Men det førte heller ikke til en uovervinnelig versjon av Katago. Angriperne fortsatte å finne svakheter, med det siste angrepet Katago beseiret 81 % av tiden. Som den tredje forsvarsstrategien trente forskerne et nytt AI-system fra bunnen av. Katago er basert på en beregningsmodell kjent som Convolutional Neural Network (CNN). Forskerne mistenkte at CNN -er kunne konsentrere seg for mye om lokale detaljer og overse globale mønstre. Derfor bygde de en GO-spiller med en alternativ
Og siden folk er i stand til å bruke taktikken til de motstridende robotene for å beseire ledende gok-kis, er det fornuftig å kalle disse systemene overmenneskelige? "Dette er et flott spørsmål som jeg definitivt kjempet," sier Gleave. "Vi har begynt å si" typisk overmenneskelig "." David Wu, dataforsker i New York, som først utviklet Katago, sier at sterke go-kis er "i gjennomsnitt supermenneskelig", men ikke "i verste tilfeller". Gleave sier at resultatene kan ha vidtrekkende effekter på AI-systemer, inkludert Store språkmodeller som er basert på chatbots som chatgpt . "Det viktigste funnet for AI er at disse svake punktene vil være vanskelige å eliminere," sier Gleave. "Hvis vi ikke kan løse problemet i et enkelt område som Go, ser det ut til å være lite utsikter i nær fremtid med å løse lignende problemer som jailbreaks i Chatt." Hva resultatene betyr for muligheten for å lage en AI som overskrider menneskelige ferdigheter mye er mindre tydelig, sier Zhang. "Selv om dette indikerer overfladisk at folk fremdeles kan holde viktige kognitive fordeler i forhold til AI," sier han, "tror jeg at den avgjørende kunnskapen er at Vi forstår ennå ikke AI-systemene som vi bygger i dag
Svak motstander
I alle disse tilfellene, selv om de var i stand til å slå Katago og andre ledende spillsystemer som ble trent for å oppdage skjulte svakheter i andre AIS, og ikke å være allsidige strateger. "Motstanderne er fremdeles ganske svake - vi beseiret dem ganske enkelt," sier Gleave.
-
Tseng, T., McLean, E., Pelrine, K., Wang, T. T. & Gleave, A. Preprint at Arxiv https://doi.org/10.48550/arxiv.2406.12843 (2024).
-
Wang, T. T. et al. forhåndtrykk på arxiv https://doi.org/10.48550/arxiv.2211.00241 .