Rozhovory o nadlidská umělá inteligence (AI) zvýšení. Výzkum ale odhalil slabiny jednoho z nejúspěšnějších systémů umělé inteligence – robota, který hraje deskovou hru Go a dokáže porazit nejlepší lidské hráče na světě – a ukazuje, že taková převaha může být křehká. Studie vyvolává otázky, zda by obecnější systémy umělé inteligence mohly být zranitelné vůči zranitelnostem, které by mohly ohrozit jejich bezpečnost a spolehlivost, a dokonce i jejich tvrzení, že jsou „nadlidské“.
„Příspěvek zanechává velký otazník ohledně toho, jak dosáhnout ambiciózního cíle vybudovat robustní agenty umělé inteligence v reálném světě, kterým mohou lidé věřit,“ říká Huan Zhang, počítačový vědec z University of Illinois Urbana-Champaign. Stephen Casper, počítačový vědec z Massachusettského technologického institutu v Cambridge, dodává: "Poskytuje to jeden z dosud nejsilnějších důkazů, že je obtížné implementovat pokročilé modely tak spolehlivě, jak bychom chtěli."
Analýza v červnu publikováno online jako předtisk 1a ještě nebyl recenzován, používá takzvané adversarial útoky – vstup AI systémů které mají za cíl přimět systémy dělat chyby ať už pro výzkumné účely nebo pro účely se zlými úmysly. Některé vstupy mohou například chatboty „utrhnout z vězení“ vysíláním škodlivých informací, které by normálně měli potlačit.
V Go se dva hráči střídají pokládáním černých a bílých kamenů na mřížku, aby obklopili a uvěznili kameny druhého hráče. V roce 2022 vědci informovali o výcvik nepřátelských robotů AI, aby porazili KataGo 2, nejlepší open-source Go-playing AI systém, který obvykle poráží ty nejlepší lidi obratně (a bez použití rukou). Jejich boti našli zranitelnosti, které pravidelně porážely KataGo, i když boti jinak nebyli moc dobří – lidští amatéři je mohli porazit. Kromě toho byli lidé schopni pochopit a používat triky robotů k poražení KataGo.
Využití KataGo
Byla to jednorázová záležitost, nebo tato práce poukázala na zásadní slabinu KataGo – a potažmo dalších systémů AI se zdánlivě nadlidskými schopnostmi? Aby to prozkoumali, vědci vedení Adamem Gleavem, výkonným ředitelem FAR AI, neziskové výzkumné organizace v Berkeley v Kalifornii a spoluautorem dokumentu z roku 2022, používají AI. 2, nepřátelské roboty, aby otestovali tři způsoby obrany Go AI proti takovým útokům 1.
První obrana byla ta, kterou vývojáři KataGo použili již po útocích v roce 2022: uvedli KataGo příklady herních situací, které byly součástí útoků, a nechali je hrát, aby se naučili, jak proti těmto situacím hrát. Je to podobné tomu, jak se obecně učí hrát Go. Autoři nejnovějšího článku však zjistili, že nepřátelský bot se naučil porazit i tuto aktualizovanou verzi KataGo a vyhrál 91 % času.
Druhá obranná strategie, kterou Gleaveův tým vyzkoušel, byla iterativní: trénovat verzi KataGo proti nepřátelským robotům, poté trénovat útočníky proti aktualizovanému KataGo a tak dále po dobu devíti kol. Ale ani to nevedlo k neporazitelné verzi KataGo. Útočníci nadále nacházeli zranitelná místa, přičemž nejnovější útok porazil KataGo v 81 % případů.
Jako třetí obrannou strategii výzkumníci trénovali nový systém umělé inteligence Go-playing od nuly. KataGo je založeno na výpočetním modelu známém jako konvoluční neuronová síť (CNN). Výzkumníci se domnívali, že CNN by se mohly příliš soustředit na místní detaily a postrádat globální vzorce. Postavili tedy přehrávač Go s alternativou neuronové sítě nazývaný transformátor vidění (ViT). Ale jejich nepřátelský robot našel nový útok, který mu pomohl vyhrát proti systému ViT v 78 % případů.
Slabí soupeři
Ve všech těchto případech byli nepřátelští roboti – i když byli schopni porazit KataGo a další přední Go-playing systémy – vycvičeni tak, aby objevili skrytá zranitelnost v jiných AI, spíše než aby byli zkušenými stratégy. "Soupeři jsou stále dost slabí - porazili jsme je docela snadno," říká Gleave.
A protože lidé jsou schopni použít taktiku nepřátelských robotů k poražení předních Go AI, má ještě smysl nazývat tyto systémy nadlidskými? "To je skvělá otázka, se kterou jsem se rozhodně potýkal," říká Gleave. „Začali jsme říkat ‚typicky nadčlověk‘. David Wu, počítačový vědec z New Yorku, který jako první vyvinul KataGo, říká, že silné Go AI jsou „v průměru nadlidské“, ale ne „v nejhorších případech“.
Gleave říká, že zjištění by mohla mít dalekosáhlé důsledky pro systémy AI, včetně velké jazykové modely, které jsou základem chatbotů, jako je ChatGPT. „Klíčovým závěrem pro AI je to, že tyto zranitelnosti bude obtížné řešit,“ říká Gleave. "Pokud nedokážeme vyřešit problém v jednoduché oblasti, jako je Go, pak se zdá, že v blízké budoucnosti máme malou vyhlídku na vyřešení podobných problémů, jako jsou útěky z vězení v ChatGPT."
Co výsledky znamenají pro možnost vytvoření umělé inteligence, která komplexně předčí lidské schopnosti, je méně jasné, říká Zhang. „Ačkoli to navenek naznačuje, že si lidé mohou po určitou dobu zachovat důležité kognitivní výhody oproti AI,“ říká, „věřím, že klíčovým poznatkem je, že Ještě plně nerozumíme systémům umělé inteligence, které dnes budujeme.“