Rozhovory o nadľudská umelá inteligencia (AI) zvýšiť. Výskum však odhalil slabiny jedného z najúspešnejších systémov AI – robota, ktorý hrá stolovú hru Go a dokáže poraziť najlepších ľudských hráčov na svete – čo ukazuje, že takáto prevaha môže byť krehká. Štúdia vyvoláva otázky, či by všeobecnejšie systémy AI mohli byť zraniteľné voči zraniteľnostiam, ktoré by mohli ohroziť ich bezpečnosť a spoľahlivosť, a dokonca aj ich tvrdenie, že sú „nadľudské“.

„Príspevok zanecháva veľký otáznik o tom, ako dosiahnuť ambiciózny cieľ vybudovať robustných agentov AI v reálnom svete, ktorým ľudia môžu dôverovať,“ hovorí Huan Zhang, počítačový vedec z University of Illinois Urbana-Champaign. Stephen Casper, počítačový vedec z Massachusettského technologického inštitútu v Cambridge, dodáva: "Poskytuje to zatiaľ jeden z najsilnejších dôkazov, že je ťažké implementovať pokročilé modely tak spoľahlivo, ako by sme chceli."

Analýza v júni publikované online ako predtlač 1a ešte nebol recenzovaný, používa takzvané adversarial útoky - vstup systémov AI ktorých cieľom je spôsobiť, aby systémy robili chyby, či už na výskumné účely alebo na škodlivé účely. Napríklad, niektoré vstupy môžu „útek z väzenia“ chatbotov vysielaním škodlivých informácií, ktoré by mali normálne potlačiť.

V hre Go sa dvaja hráči striedajú v umiestňovaní čiernych a bielych kameňov na mriežku, aby obklopili a uväznili kamene druhého hráča. V roku 2022 výskumníci informovali o trénujte roboty AI protivníkov, aby porazili KataGo 2, najlepší systém umelej inteligencie na hranie s otvoreným zdrojovým kódom, ktorý zvyčajne šikovne (a bez rúk) porazí tých najlepších ľudí. Ich roboti našli zraniteľné miesta, ktoré pravidelne porážali KataGo, aj keď roboty inak neboli príliš dobré – ľudskí amatéri ich dokázali poraziť. Okrem toho boli ľudia schopní pochopiť a použiť triky robotov na porazenie KataGo.

Využitie KataGo

Bola to jednorazová záležitosť, alebo táto práca poukázala na základnú slabinu KataGo – a teda aj iných systémov AI so zdanlivo nadľudskými schopnosťami? Aby to preskúmali, výskumníci pod vedením Adama Gleavea, výkonného riaditeľa FAR AI, neziskovej výskumnej organizácie v Berkeley v Kalifornii a spoluautora dokumentu z roku 2022, používajú AI. 2, protivníci na testovanie troch spôsobov obrany Go AI proti takýmto útokom 1.

Prvá obrana bola tá, ktorú vývojári KataGo použili už po útokoch v roku 2022: poskytli KataGo príklady herných situácií, ktoré boli súčasťou útokov, a nechali ho hrať, aby sa naučilo, ako proti týmto situáciám hrať. Je to podobné tomu, ako sa vo všeobecnosti učí hrať Go. Autori najnovšieho článku však zistili, že nepriateľský bot sa naučil poraziť aj túto aktualizovanú verziu KataGo a vyhral 91 % prípadov.

Druhá obranná stratégia, ktorú Gleaveov tím vyskúšal, bola iteratívna: trénovať verziu KataGo proti nepriateľským robotom, potom trénovať útočníkov proti aktualizovanému KataGo atď., počas deviatich kôl. Ani to však neviedlo k neporaziteľnej verzii KataGo. Útočníci naďalej nachádzali slabé miesta, pričom najnovší útok porazil KataGo v 81 % prípadov.

Ako tretiu obrannú stratégiu výskumníci trénovali nový systém umelej inteligencie na hranie od začiatku. KataGo je založený na výpočtovom modeli známom ako konvolučná neurónová sieť (CNN). Výskumníci mali podozrenie, že CNN sa môžu príliš zameriavať na miestne detaily a vynechávať globálne vzorce. Postavili teda prehrávač Go s alternatívou neurónová sieť nazývaný transformátor videnia (ViT). Ale ich nepriateľský robot našiel nový útok, ktorý mu pomohol vyhrať proti systému ViT v 78% prípadov.

Slabí súperi

Vo všetkých týchto prípadoch boli roboty protivníka – hoci boli schopné poraziť KataGo a ďalšie popredné herné systémy – trénované na objavovanie skrytých zraniteľností v iných AI, namiesto toho, aby boli všestrannými stratégmi. "Súperi sú stále dosť slabí - porazili sme ich celkom ľahko," hovorí Gleave.

A keďže ľudia sú schopní použiť taktiku nepriateľských robotov na porazenie popredných Go AI, má ešte zmysel nazývať tieto systémy nadľudskými? "To je skvelá otázka, s ktorou som určite zápasil," hovorí Gleave. "Začali sme hovoriť "zvyčajne nadľudské"." David Wu, počítačový vedec v New Yorku, ktorý ako prvý vyvinul KataGo, hovorí, že silné Go AI sú „v priemere nadľudské“, ale nie „v najhorších prípadoch“.

Gleave hovorí, že zistenia by mohli mať ďalekosiahle dôsledky pre systémy AI vrátane veľké jazykové modely, ktoré sú základom chatbotov ako ChatGPT. „Kľúčovým prínosom pre AI je to, že tieto zraniteľnosti bude ťažké riešiť,“ hovorí Gleave. "Ak nedokážeme vyriešiť problém v jednoduchej oblasti, ako je Go, potom sa zdá, že v blízkej budúcnosti nie je veľká šanca vyriešiť podobné problémy, ako sú útek z väzenia v ChatGPT."

Čo výsledky znamenajú pre možnosť vytvorenia AI, ktorá komplexne prevyšuje ľudské schopnosti, je menej jasné, hovorí Zhang. „Hoci to na prvý pohľad naznačuje, že ľudia si môžu nejaký čas zachovať dôležité kognitívne výhody oproti AI,“ hovorí, „verím, že kľúčovým poznatkom je, že Zatiaľ úplne nerozumieme systémom AI, ktoré dnes budujeme.“