Conversazioni su intelligenza artificiale sovrumana (AI) aumento. Ma la ricerca ha rivelato i punti deboli di uno dei sistemi di intelligenza artificiale di maggior successo – un robot che gioca al gioco da tavolo Go e può battere i migliori giocatori umani al mondo – dimostrando che tale superiorità può essere fragile. Lo studio solleva dubbi sulla possibilità che i sistemi di intelligenza artificiale più generali possano essere vulnerabili a vulnerabilità che potrebbero minacciarne la sicurezza e l’affidabilità, e persino la loro pretesa di essere “sovrumani”.
"Il documento lascia un grande punto interrogativo su come raggiungere l'ambizioso obiettivo di costruire agenti di intelligenza artificiale robusti e reali di cui le persone possano fidarsi", afferma Huan Zhang, scienziato informatico presso l'Università dell'Illinois Urbana-Champaign. Stephen Casper, informatico del Massachusetts Institute of Technology di Cambridge, aggiunge: "Ciò fornisce alcune delle prove più convincenti finora che è difficile implementare modelli avanzati in modo affidabile come si vorrebbe".
L'analisi di giugno pubblicato online come prestampa 1e non è stato ancora sottoposto a revisione paritaria, utilizza i cosiddetti attacchi contraddittori: l'input dei sistemi di intelligenza artificiale che mirano a causare errori nei sistemi, sia per scopi di ricerca che per scopi dannosi. Ad esempio, alcuni input possono eseguire il "jailbreak" dei chatbot emettendo informazioni dannose che normalmente dovrebbero sopprimere.
In Go, due giocatori, a turno, posizionano pietre bianche e nere su una griglia per circondare e intrappolare le pietre dell'altro giocatore. Nel 2022, i ricercatori hanno riferito addestrare robot IA avversari per sconfiggere KataGo 2, il miglior sistema di intelligenza artificiale per giocare a Go open source che di solito batte facilmente (e senza mani) i migliori umani. I loro robot trovavano vulnerabilità che sconfiggevano regolarmente KataGo, anche se i robot non erano molto bravi per il resto: i dilettanti umani potevano sconfiggerli. Inoltre, gli umani sono stati in grado di comprendere e utilizzare i trucchi dei robot per sconfiggere KataGo.
Sfruttamento di KataGo
Si è trattato di un caso isolato o questo lavoro ha evidenziato una debolezza fondamentale di KataGo e, per estensione, di altri sistemi di intelligenza artificiale con abilità apparentemente sovrumane? Per indagare su questo, i ricercatori guidati da Adam Gleave, direttore esecutivo di FAR AI, un’organizzazione di ricerca senza scopo di lucro con sede a Berkeley, in California, e coautore dell’articolo del 2022, stanno utilizzando l’intelligenza artificiale 2, bot avversari per testare tre modi per difendere le IA Go da tali attacchi 1.
La prima difesa era quella che gli sviluppatori di KataGo avevano già utilizzato dopo gli attacchi del 2022: fornire a KataGo esempi di situazioni di gioco coinvolte negli attacchi e lasciarlo giocare per imparare a giocare contro quelle situazioni. Questo è simile a come viene generalmente insegnato a giocare a Go. Tuttavia, gli autori dell’ultimo articolo hanno scoperto che un bot avversario ha imparato a battere anche questa versione aggiornata di KataGo e ha vinto il 91% delle volte.
La seconda strategia difensiva provata dal team di Gleave è stata iterativa: addestrare una versione di KataGo contro i bot avversari, quindi addestrare gli aggressori contro il KataGo aggiornato e così via, per nove round. Ma anche questo non ha portato ad una versione invincibile di KataGo. Gli aggressori hanno continuato a individuare vulnerabilità e l’ultimo attacco ha sconfitto KataGo nell’81% dei casi.
Come terza strategia di difesa, i ricercatori hanno addestrato da zero un nuovo sistema di intelligenza artificiale per giocare a Go. KataGo si basa su un modello computazionale noto come rete neurale convoluzionale (CNN). I ricercatori sospettavano che le CNN potessero concentrarsi troppo sui dettagli locali e perdere i modelli globali. Quindi hanno costruito un giocatore Go con un'alternativa rete neurale chiamato trasformatore di visione (ViT). Ma il bot avversario ha trovato un nuovo attacco che lo ha aiutato a vincere contro il sistema ViT nel 78% dei casi.
Avversari deboli
In tutti questi casi, i bot avversari, sebbene in grado di battere KataGo e altri principali sistemi di gioco di Go, sono stati addestrati a scoprire vulnerabilità nascoste in altre IA, piuttosto che a essere strateghi a tutto tondo. "Gli avversari sono ancora piuttosto deboli: li abbiamo battuti abbastanza facilmente", afferma Gleave.
E poiché gli esseri umani sono in grado di utilizzare le tattiche dei robot avversari per sconfiggere le principali IA Go, ha ancora senso chiamare questi sistemi sovrumani? "Questa è un'ottima domanda con la quale ho sicuramente lottato", afferma Gleave. “Abbiamo iniziato a dire: ‘tipicamente sovrumano’.” David Wu, uno scienziato informatico di New York che per primo ha sviluppato KataGo, afferma che le potenti IA Go sono "in media sovrumane", ma non "nei casi peggiori".
Gleave afferma che i risultati potrebbero avere implicazioni di vasta portata per i sistemi di intelligenza artificiale, incluso il modelli linguistici di grandi dimensioni che sono alla base di chatbot come ChatGPT. “La conclusione fondamentale per l’intelligenza artificiale è che queste vulnerabilità saranno difficili da affrontare”, afferma Gleave. "Se non riusciamo a risolvere il problema in un'area semplice come Go, sembrano esserci poche prospettive di risolvere problemi simili come il jailbreak in ChatGPT nel prossimo futuro."
Ciò che i risultati significano per la possibilità di creare un’intelligenza artificiale che superi completamente le capacità umane è meno chiaro, dice Zhang. “Anche se in superficie ciò suggerisce che gli esseri umani potrebbero conservare importanti vantaggi cognitivi rispetto all’intelligenza artificiale per qualche tempo”, afferma, “credo che l’intuizione chiave sia che Non comprendiamo ancora appieno i sistemi di intelligenza artificiale che stiamo costruendo oggi.”