Beszélgetések arról emberfeletti mesterséges intelligencia (AI) növekedés. A kutatás azonban feltárta az egyik legsikeresebb mesterséges intelligencia-rendszer gyenge pontjait – a Go nevű botot, amely a Go nevű társasjátékot játssza, és képes legyőzni a világ legjobb emberi játékosait –, ami azt mutatja, hogy ez a fölény törékeny is lehet. A tanulmány kérdéseket vet fel azzal kapcsolatban, hogy az általánosabb mesterségesintelligencia-rendszerek sebezhetőek lehetnek-e olyan sebezhetőségekkel szemben, amelyek veszélyeztethetik biztonságukat és megbízhatóságukat, és akár azt is, hogy „emberfelettinek” minősülnek.

„A papír nagy kérdőjeleket hagy maga után, hogyan lehet elérni azt az ambiciózus célt, hogy robusztus, valós mesterséges intelligencia-ügynököket építsünk, amelyekben az emberek megbízhatnak” – mondja Huan Zhang, az Illinois Urbana-Champaign Egyetem informatikusa. Stephen Casper, a Cambridge-i Massachusetts Institute of Technology informatikusa hozzáteszi: "Az eddigi legerősebb bizonyítékok közé tartozik, hogy nehéz olyan megbízhatóan megvalósítani a fejlett modelleket, mint amennyire az ember szeretné."

Az elemzés júniusban online előnyomatként megjelent 1és még nem került szakértői értékelésre, úgynevezett ellenséges támadásokat használ - az AI rendszer bemenete amelyek célja a rendszerek hibáinak előidézése, akár kutatási, akár rosszindulatú célokra. Például bizonyos bemenetek képesek „jailbreak”-re törni a chatbotokat azáltal, hogy rosszindulatú információkat bocsátanak ki, amelyeket általában el kellene távolítaniuk.

A Go játékban két játékos felváltva fekete-fehér köveket tesz egy rácsra, hogy körülvegye és csapdába ejtse a másik játékos köveit. 2022-ben a kutatók arról számoltak be ellenséges mesterséges intelligenciabotok képzése a KataGo legyőzésére 2, a legjobb nyílt forráskódú Go-playing AI-rendszer, amely általában kézzel (és gond nélkül) legyőzi a legjobb embereket. A robotjaik olyan sebezhetőséget találtak, amely rendszeresen legyőzte a KataGo-t, bár a botok egyébként nem voltak túl jók – az emberi amatőrök le tudták győzni őket. Ezenkívül az emberek képesek voltak megérteni és felhasználni a botok trükkjeit a KataGo legyőzésére.

A KataGo kihasználása

Ez egyszeri eset volt, vagy ez a munka a KataGo – és tágabb értelemben más, látszólag emberfeletti képességekkel rendelkező AI-rendszer – alapvető gyengeségére mutatott rá? Ennek kivizsgálására Adam Gleave, a kaliforniai Berkeleyben működő nonprofit kutatószervezet, a FAR AI ügyvezető igazgatója és a 2022-es tanulmány társszerzője által vezetett kutatók mesterséges intelligenciát használnak. 2, ellenséges robotokat, hogy teszteljék a Go AI-k ilyen támadásokkal szembeni védelmének három módját 1.

Az első védekezés az volt, amelyet a KataGo fejlesztői már a 2022-es támadások után is alkalmaztak: példákat adtak a KataGo-nak azokra a játékhelyzetekre, amelyek részt vettek a támadásokban, és hagyták játszani, hogy megtanuljanak ezek ellen a helyzetek ellen játszani. Ez hasonló ahhoz, ahogy általában tanítják a Go-t. A legfrissebb tanulmány szerzői azonban azt találták, hogy egy ellenséges bot még a KataGo ezen frissített verzióját is megtanulta legyőzni, és az esetek 91%-ában győzött.

A második védekezési stratégia, amelyet Gleave csapata próbált, iteratív volt: a KataGo egy változatát az ellenséges robotok ellen, majd a támadókat képezte ki a frissített KataGo ellen, és így tovább, kilenc körön keresztül. De még ez sem vezetett a KataGo legyőzhetetlen változatához. A támadók továbbra is találtak sebezhetőségeket, a legutóbbi támadás az esetek 81%-ában legyőzte a KataGo-t.

Harmadik védelmi stratégiaként a kutatók egy új Go-playing AI rendszert képeztek ki a semmiből. A KataGo egy konvolúciós neurális hálózatként (CNN) ismert számítási modellen alapul. A kutatók azt gyanították, hogy a CNN-ek túlságosan a helyi részletekre összpontosítanak, és figyelmen kívül hagyják a globális mintákat. Így építettek egy Go lejátszót egy alternatívával neurális hálózat látástranszformátornak (ViT) nevezik. De az ellenséges robotjuk új támadást talált, amely az esetek 78%-ában segített neki nyerni a ViT rendszerrel szemben.

Gyenge ellenfelek

Ezekben az esetekben az ellenséges botok – bár képesek voltak legyőzni a KataGót és más vezető Go-playing rendszereket – arra lettek kiképezve, hogy felfedezzék más mesterséges intelligencia rejtett sebezhetőségeit, ahelyett, hogy jól kidolgozott stratégák lennének. „Az ellenfelek még mindig elég gyengék – elég könnyen legyőztük őket” – mondja Gleave.

És mivel az emberek képesek az ellenséges robotok taktikáját használni a vezető Go AI-k legyőzésére, van-e értelme ezeket a rendszereket emberfelettinek nevezni? „Ez egy nagyszerű kérdés, és határozottan megküzdöttem vele” – mondja Gleave. „Elkezdtük azt mondani, hogy „tipikusan emberfeletti”. David Wu, egy New York-i informatikus, aki először fejlesztette ki a KataGo-t, azt mondja, hogy az erős Go AI-k „átlagosan emberfelettiek”, de nem „a legrosszabb esetekben”.

Gleave szerint az eredmények messzemenő következményekkel járhatnak az AI-rendszerekre, beleértve a nagy nyelvi modellek, amelyek olyan chatbotok hátterében állnak, mint a ChatGPT. „A mesterséges intelligencia szempontjából az a legfontosabb, hogy ezeket a sebezhetőségeket nehéz lesz kezelni” – mondja Gleave. "Ha nem tudjuk megoldani a problémát egy olyan egyszerű területen, mint a Go, akkor úgy tűnik, hogy a közeljövőben nem sok esély van a hasonló problémák, például a ChatGPT jailbreak-einek javítására."

Zhang szerint kevésbé egyértelmű, hogy az eredmények mit jelentenek az emberi képességeket átfogóan felülmúló mesterséges intelligencia létrehozásának lehetőségében. "Bár a felszínen ez azt sugallja, hogy az emberek egy ideig megőrizhetik fontos kognitív előnyeiket az MI-vel szemben" - mondja -, úgy gondolom, hogy a legfontosabb betekintés az, hogy Még nem értjük teljesen a ma épülő AI-rendszereket.”