AI poate fi suprauman? Defectele din bot -ul jucătorului de top ridică îndoieli

Cercetările arată că chiar și superinteligența în jocul GO este susceptibilă. Aflați cum sistemele AI precum Katago se luptă împotriva atacurilor și ce efecte ar putea avea acest lucru asupra dezvoltării sistemelor AI.

08. Juli 2024

Natur.wiki Autoren-Team

Artikel als PDF

Kommentare

Diesen Artikel teilen:

Facebook X Whatsapp Email

vorbește despre Inteligențe artificiale excesive (KI) Creșterea. În lume-ceea ce arată că o astfel de superioritate poate fi fragilă

"Hârtia lasă un mare semn de întrebare despre modul în care obiectivul ambițios poate fi atins pentru a construi agenți AI robusi ai lumii reale în care oamenii pot avea încredere", spune Huan Zhang, informatician la Universitatea din Illinois Urbana-Champay. Stephen Casper, un informatician la Institutul de Tehnologie din Massachusetts din Cambridge, adaugă: „Până în prezent, a oferit unele dintre cele mai puternice dovezi că este dificil să implementăm modele avansate la fel de fiabil pe cât doriți”.

The analysis that in June 1 Loc care urmăresc să ispitească sistemele la erori , fie că este în scop de cercetare sau în scopuri rău intenționate. De exemplu, anumite înregistrări pot „jailbreaks” chatbot -uri prin emiterea de informații dăunătoare pe care în mod normal ar trebui să le suprimați.

Când mergeți, doi jucători plasează alternativ pietre alb -negru pe o grilă pentru a înconjura și captura pietrele celuilalt jucător. În 2022, cercetătorii au raportat despre învins de Katago 2 , Adversari-Category =" Surses "> 2 , Adversarigelle Pentru a testa trei opțiuni, pentru a apăra GO-KIS împotriva unor astfel de atacuri

Prima apărare a fost una pe care dezvoltatorii Katago au folosit -o deja după atacurile din 2022: Katago Exemple de situații de joc care au fost implicate în atacuri și l -au lăsat să joace pentru a învăța cum să joace împotriva acestor situații. Acest lucru este similar cu cel pe care l -a învățat în general. Cu toate acestea, autorii celor mai recente lucrări au descoperit că o ofertă adversă a învățat să bată această versiune actualizată a Katago și a câștigat 91 % din timp.

A doua strategie de apărare pe care a încercat -o echipa Gleave a fost iterativă: să instruiască o versiune a Katago împotriva botilor adversariali, apoi să instruiască atacatorii împotriva Katago actualizată și așa mai departe pentru nouă runde. Dar asta nu a dus nici la o versiune invincibilă a Katago. Atacatorii au continuat să găsească slăbiciuni, ultimul atac Katago a învins 81 % din timp.

ca a treia strategie de apărare, cercetătorii au antrenat de la zero un nou sistem AI-playing. Katago se bazează pe un model de calcul cunoscut sub numele de rețeaua neuronală convoluțională (CNN). Cercetătorii au bănuit că CNN -urile s -ar putea concentra prea mult pe detaliile locale și pot trece cu vederea modelele globale. Prin urmare, au construit un player Go cu o alternativă

oponent slab

În toate aceste cazuri, roboții adversari, deși au reușit să-l învingă pe Katago și alte sisteme de top-jucătoare-au fost instruiți să descopere slăbiciuni ascunse în alte AIS și să nu fie strategi versatili. „Adversarii sunt încă destul de slabi - i -am învins destul de ușor”, spune Gleave.

și din moment ce oamenii sunt capabili să folosească tactica bots-ului adversar pentru a învinge GO-KIS-urile de frunte, are sens să numim aceste sisteme supraumane? „Aceasta este o întrebare grozavă cu care am luptat cu siguranță”, spune Gleave. „Am început să spunem„ de obicei suprauman ”. David Wu, un informatician din New York, care a dezvoltat pentru prima dată Katago, spune că GO-KI-urile puternice sunt „în medie supraumane”, dar nu „în cele mai grave cazuri”.

Gleave says that the results could have far-reaching effects on AI systems, including the Modele de limbaj mare care se bazează pe chatbots, cum ar fi chatgpt . „Cea mai importantă constatare pentru AI este că aceste puncte slabe vor fi dificil de eliminat”, spune Gleave. „Dacă nu putem rezolva problema într -o zonă simplă, cum ar fi GO, atunci se pare că există puține perspective în viitorul apropiat de a rezolva probleme similare precum jailbreak -urile din Chatt”.

ceea ce înseamnă rezultatele pentru posibilitatea creării unei AI care depășește pe larg abilitățile umane este mai puțin clar, spune Zhang. "Deși acest lucru indică superficial faptul că oamenii ar putea păstra în continuare avantaje cognitive importante față de AI", spune el, "cred că cunoștințele cruciale sunt că Nu înțelegem pe deplin sistemele AI pe care le construim astăzi

Tseng, T., McLean, E., Pelrine, K., Wang, T. T. & Gleave, A. Preprint la arxiv https://doi.org/10.48550/arxiv.2406.12843 (2024).
wang, T. T. și colab. preprint la arxiv > https://doi.org/10.48550/arxiv.2211.00241 .

descărcare surse