Može li AI biti nadljudski? Oštećenja u vrhunskom igraču bot podižu sumnje

Forschung zeigt, dass selbst Superintelligenzen im Go-Spiel anfällig sind. Erfahren Sie, wie KI-Systeme wie KataGo gegen Angriffe kämpfen und welche Auswirkungen dies auf die Entwicklung von KI-Systemen haben könnte.
Istraživanje pokazuje da je čak i superinteligencija u GO igri osjetljiva. Saznajte kako se AI sustavi poput Katago bore protiv napada i koji bi to učinci mogli imati na razvoj AI sustava. (Symbolbild/natur.wiki)

Može li AI biti nadljudski? Oštećenja u vrhunskom igraču bot podižu sumnje

govori o Technology/ilya-sutske-openai-superintelligence.html" Data-Track "Data-Label = "https://www.nytimes.com/2024/19/technology/ilya-sutske-openai-superintelligence.html" Podaci-track-Kategorija = "Tekstni tekst tijela"> Prekomjerna umjetna inteligencija (KI), međutim, na većinu, što je i u BOT-u. Igrači u svijetu-što pokazuje da takva superiornost može biti krhka.

"Rad ostavlja veliki upitnik o tome kako se može postići ambiciozni cilj za izgradnju robusnih AI agenata iz stvarnog svijeta kojem ljudi mogu vjerovati", kaže Huan Zhang, računalni znanstvenik sa Sveučilišta u Illinois Urbana-Champay. Stephen Casper, računalni znanstvenik na Massachusetts Institute of Technology u Cambridgeu, dodaje: "Do sada je pružio neke od najjačih dokaza da je teško implementirati napredne modele koliko god želite."

Analiza da je u lipnju 1 i još uvijek nisu revizirani koristi unose AI sustava mjesto koje ima za cilj iskušati sustave na pogreške , bilo da se radi o istraživačkim svrhama ili u zlonamjerne svrhe. Na primjer, određeni unosi mogu 'jailbreaks' chatbotove izdavanjem štetnih podataka koje biste inače trebali suzbiti.

Kad GO, dva igrača naizmjenično stavljaju crno -bijelo kamenje na mrežu kako bi okružili i uhvatili kamenje drugog igrača. Godine 2022. istraživači su izvijestili o " tjelesni tekst "Up Up Up"> poražen Data-Track = "Kliknite" Data Action = "Anchor-Link" Data Track Label = "Idite na referentnu" Podatkovnu track kategoriju = "Izvor Hatters (i ručno). Njeni su botovi pronašli slabosti koje su redovito porazile Katago, iako botovi inače nisu bili baš dobri - ljudski amateri su ih mogli pobijediti. Pored toga, ljudi su mogli razumjeti i primijeniti trikove botova kako bi porazili Katago.

Eksploatacija Kataga

Je li to bila jedinstvena stvar ili je ovaj rad ukazao na temeljnu slabost u Katagu i, u širenju, na druge AI sustave s naizgled nadljudskim vještinama? Da bismo to istražili, istraživači pod vodstvom Adama Gleavea, generalnog direktora FAR AI, neprofitne istraživačke organizacije u Berkeleyu u Kaliforniji i koautorica radova iz 2022.

.

Prva obrana bila je jedna koju su Katago programeri već koristili nakon napada 2022. godine: Katago primjeri igre u igri koje su bile uključene u napade i pustili je da igraju kako bi naučili kako igrati protiv ovih situacija. To je slično onome kao što je općenito podučavao Go. Međutim, autori najnovijih radova otkrili su da je protivnička ponuda naučila pobijediti ovu ažuriranu verziju Kataga i osvojila 91 % vremena.

Druga obrambena strategija koju je Gleave tim pokušao bila je iterativna: osposobiti se verziju Kataga protiv Bots Adversareelle Bots, a zatim trenirati napadače protiv ažuriranog Kataga i tako dalje za devet rundi. Ali to nije dovelo ni do nepobjedive verzije Kataga. Napadači su nastavili pronaći slabosti, a posljednji napad Katago je pobijedio 81 % vremena.

Kao treća strategija obrane, istraživači su od nule obučavali novi AI sustav za igranje. Katago se temelji na modelu izračuna poznatog kao konvolucijska neuronska mreža (CNN). Istraživači su sumnjali da se CNN -ovi mogu previše koncentrirati na lokalne detalje i previdjeti globalne obrasce. Stoga su izgradili igrača GO-a s alternativom

A budući da su ljudi u stanju koristiti taktiku protivničkih botova kako bi pobijedili vodeći Go-Kis, ima li smisla nazvati ove sustave nadljudskim? "Ovo je sjajno pitanje s kojim sam se definitivno borio", kaže Gleave. "Počeli smo govoriti" tipično nadljudski "." David Wu, računalni znanstvenik u New Yorku, koji je prvi put razvio Katago, kaže da su jaki go-kis "u prosjeku nadljudski", ali ne "u najgorim slučajevima".

Gleave kaže da bi rezultati mogli imati dalekosežne učinke na AI sustave, uključujući Veliki jezični modeli koji se temelje na chatbotima kao što je chatgpt . "Najvažniji nalaz za AI je da će ove slabe točke biti teško ukloniti", kaže Gleave. "Ako ne možemo riješiti problem u jednostavnom području poput GO -a, čini se da u skoroj budućnosti rješavanja sličnih problema poput Jailbreasa u Chattu postoji malo izgleda."

Ono što rezultati znače za mogućnost stvaranja AI koji opširno prelazi ljudske vještine, manje je jasan, kaže Zhang. "Iako ovo ukazuje na površno da ljudi i dalje mogu zadržati važne kognitivne prednosti u odnosu na AI", kaže, "mislim da je ključno znanje da je Još uvijek ne razumijemo AI sustave koje danas gradimo .

  1. tseng, T., McLean, E., Pelrine, K., Wang, T. T. & Gleave, A. Preprint na arxiv https://doi.org/10.48550/arxiv.2406.12843 (2024).

  2. wang, T. T. i sur. Preprint na ARXIV