Conversații despre inteligență artificială supraumană (AI) crește. Dar cercetările au scos la iveală punctele slabe ale unuia dintre cele mai de succes sisteme AI - un bot care joacă jocul de societate Go și poate învinge cei mai buni jucători umani din lume - demonstrând că o astfel de superioritate poate fi fragilă. Studiul ridică întrebări dacă sistemele AI mai generale ar putea fi vulnerabile la vulnerabilități care le-ar putea amenința siguranța și fiabilitatea și chiar pretenția lor de a fi „supraomenească”.
„Lucrarea lasă un mare semn de întrebare despre cum să atingem obiectivul ambițios de a construi agenți AI robusti, din lumea reală, în care oamenii pot avea încredere”, spune Huan Zhang, un informatician la Universitatea din Illinois Urbana-Champaign. Stephen Casper, un informatician la Institutul de Tehnologie din Massachusetts din Cambridge, adaugă: „Oferă unele dintre cele mai puternice dovezi de până acum că este dificil să implementezi modele avansate atât de fiabil pe cât s-ar dori”.
Analiza din iunie publicat online ca preprint 1și nu a fost încă revizuit de către colegi, folosește așa-numitele atacuri adverse - intrarea sistemelor AI care urmăresc să determine sistemele să facă erori, fie în scopuri de cercetare sau în scopuri rău intenționate. De exemplu, anumite intrări pot „jailbreak” chatbot-uri prin emiterea de informații rău intenționate pe care în mod normal ar trebui să le suprime.
În Go, doi jucători așează pe rând pietre albe și negre pe o grilă pentru a înconjura și a prinde pietrele celuilalt jucător. În 2022, cercetătorii au raportat antrenează roboți AI adversi pentru a-l învinge pe KataGo 2, cel mai bun sistem open-source Go-playing AI care, de obicei, îi învinge pe cei mai buni oameni cu ușurință (și fără manevrare). Boții lor au găsit vulnerabilități care au învins în mod regulat KataGo, deși roboții nu erau foarte buni altfel - amatorii umani îi puteau învinge. În plus, oamenii au putut să înțeleagă și să folosească trucurile roboților pentru a învinge KataGo.
Exploatarea KataGo
A fost aceasta o singură dată sau această lucrare a indicat o slăbiciune fundamentală în KataGo – și, prin extensie, alte sisteme AI cu abilități aparent supraomenești? Pentru a investiga acest lucru, cercetătorii conduși de Adam Gleave, director executiv al FAR AI, o organizație de cercetare nonprofit din Berkeley, California, și coautor al lucrării din 2022, folosesc AI. 2, roboți adversari pentru a testa trei moduri de a apăra Go AI împotriva unor astfel de atacuri 1.
Prima apărare a fost una pe care dezvoltatorii KataGo au folosit-o deja după atacurile din 2022: dând KataGo exemple de situații de joc care au fost implicate în atacuri și lăsându-l să joace pentru a învăța cum să joace împotriva acelor situații. Acest lucru este similar cu modul în care se învață în general să joace Go. Cu toate acestea, autorii celei mai recente lucrări au descoperit că un bot adversar a învățat să învingă chiar și această versiune actualizată a KataGo și a câștigat 91% din timp.
A doua strategie defensivă încercată de echipa lui Gleave a fost iterativă: antrenarea unei versiuni de KataGo împotriva roboților adversari, apoi antrenarea atacatorilor împotriva KataGo actualizat și așa mai departe, timp de nouă runde. Dar nici măcar asta nu a dus la o versiune invincibilă a KataGo. Atacatorii au continuat să găsească vulnerabilități, cel mai recent atac învingând KataGo în 81% din cazuri.
Ca a treia strategie de apărare, cercetătorii au antrenat un nou sistem AI Go-playing de la zero. KataGo se bazează pe un model de calcul cunoscut sub numele de rețea neuronală convoluțională (CNN). Cercetătorii au bănuit că CNN-urile s-ar putea concentra prea mult pe detaliile locale și s-ar putea rata tiparele globale. Așa că au construit un player Go cu o alternativă rețea neuronală numit transformator de vedere (ViT). Dar botul lor adversar a găsit un nou atac care l-a ajutat să câștige împotriva sistemului ViT în 78% din timp.
Adversari slabi
În toate aceste cazuri, roboții adversarii - deși capabili să învingă KataGo și alte sisteme de joc Go-cheie - au fost antrenați să descopere vulnerabilități ascunse în alte IA, mai degrabă decât să fie strategi completi. „Adversarii sunt încă destul de slabi – îi învingem destul de ușor”, spune Gleave.
Și din moment ce oamenii sunt capabili să folosească tacticile roboților adversari pentru a învinge AI-urile Go conducătoare, mai are sens să numim aceste sisteme supraomenești? „Este o întrebare grozavă și una cu care m-am luptat cu siguranță”, spune Gleave. „Am început să spunem „de obicei supraomenesc”. David Wu, un informatician din New York care a dezvoltat pentru prima dată KataGo, spune că IA puternice Go sunt „în medie supraomenești”, dar nu „în cele mai rele cazuri”.
Gleave spune că descoperirile ar putea avea implicații de amploare pentru sistemele AI, inclusiv pentru modele de limbaj mari care stau la baza chatbot-urilor precum ChatGPT. „Ceea concluzie pentru AI este că aceste vulnerabilități vor fi dificil de abordat”, spune Gleave. „Dacă nu putem rezolva problema într-o zonă simplă precum Go, atunci se pare că există puține perspective de a rezolva probleme similare precum jailbreak-urile în ChatGPT în viitorul apropiat.”
Ce înseamnă rezultatele pentru posibilitatea de a crea AI care depășește cuprinzător capacitățile umane este mai puțin clar, spune Zhang. „Deși la suprafață, acest lucru sugerează că oamenii pot păstra avantaje cognitive importante față de AI pentru o perioadă de timp”, spune el, „cred că ideea cheie este că Încă nu înțelegem pe deplin sistemele AI pe care le construim astăzi.”
