Разговори за свръхчовешки изкуствен интелект (AI) увеличаване. Но изследванията разкриха слабости в една от най-успешните AI системи - бот, който играе настолната игра Go и може да победи най-добрите човешки играчи в света - показвайки, че подобно превъзходство може да бъде крехко. Проучването повдига въпроси за това дали по-общите AI системи могат да бъдат уязвими на уязвимости, които биха могли да застрашат тяхната безопасност и надеждност и дори твърдението им, че са „свръхчовешки“.

„Документът оставя голяма въпросителна за това как да постигнем амбициозната цел за изграждане на стабилни, реални AI агенти, на които хората могат да се доверят“, казва Хуан Джан, компютърен учен в Университета на Илинойс Урбана-Шампейн. Стивън Каспър, компютърен учен в Масачузетския технологичен институт в Кеймбридж, добавя: „Това предоставя едни от най-силните доказателства досега, че е трудно да се прилагат усъвършенствани модели толкова надеждно, колкото човек би искал.“

Анализът през юни публикуван онлайн като предпечат 1и все още не е рецензиран от партньори, използва така наречените състезателни атаки - въвеждането на AI системи които имат за цел да накарат системите да правят грешки, независимо дали за изследователски цели или за злонамерени цели. Например, определени входни данни могат да „разбиват“ чатботовете чрез излъчване на злонамерена информация, която те обикновено трябва да потискат.

В Go двама играчи се редуват да поставят черни и бели камъни върху решетка, за да заобиколят и уловят камъните на другия играч. През 2022 г. изследователите докладваха за обучение на конкурентни ботове с изкуствен интелект, за да победят KataGo 2, най-добрата AI система с отворен код Go-playing, която обикновено побеждава най-добрите хора с ръка (и без ръка). Техните ботове откриваха уязвимости, които редовно побеждаваха KataGo, въпреки че ботовете не бяха много добри в противен случай - хората аматьори можеха да ги победят. Освен това хората успяха да разберат и използват триковете на ботовете, за да победят KataGo.

Експлоатация на KataGo

Дали това беше еднократно, или тази работа посочи фундаментална слабост на KataGo – и, като разширение, други AI системи с привидно свръхчовешки способности? За да проучат това, изследователи, ръководени от Адам Глийв, изпълнителен директор на FAR AI, изследователска организация с нестопанска цел в Бъркли, Калифорния, и съавтор на статията от 2022 г., използват AI 2, конкурентни ботове за тестване на три начина за защита на Go AI срещу подобни атаки 1.

Първата защита беше тази, която разработчиците на KataGo вече бяха използвали след атаките от 2022 г.: давайки на KataGo примери за игрови ситуации, които са участвали в атаките, и я оставяха да играе, за да се научи как да играе срещу тези ситуации. Това е подобно на начина, по който обикновено се учи да се играе Го. Въпреки това, авторите на последната статия установиха, че противников бот се е научил да победи дори тази актуализирана версия на KataGo и е спечелил 91% от времето.

Втората отбранителна стратегия, която екипът на Gleave опита, беше итеративна: обучение на версия на KataGo срещу противникови ботове, след това обучение на нападатели срещу актуализирания KataGo и така нататък в продължение на девет рунда. Но дори това не доведе до непобедима версия на KataGo. Нападателите продължиха да намират уязвимости, като последната атака победи KataGo в 81% от случаите.

Като трета отбранителна стратегия, изследователите обучиха нова AI система за игра Go-playing от нулата. KataGo се основава на изчислителен модел, известен като конволюционна невронна мрежа (CNN). Изследователите подозираха, че CNN може да се фокусира твърде много върху местните детайли и да пропусне глобалните модели. Така те създадоха Go плейър с алтернатива невронна мрежа наречен визуален трансформатор (ViT). Но техният противников бот намери нова атака, която му помогна да спечели срещу системата ViT в 78% от случаите.

Слаби противници

Във всички тези случаи противниковите ботове – макар и способни да победят KataGo и други водещи системи за игра на Go – бяха обучени да откриват скрити уязвимости в други AI, вместо да бъдат добре закръглени стратези. „Противниците все още са доста слаби – победихме ги доста лесно“, казва Глейв.

И тъй като хората са в състояние да използват тактиката на състезателни ботове, за да победят водещите Go AI, има ли смисъл все още да наричаме тези системи свръхчовешки? „Това е страхотен въпрос и такъв, с който определено съм се борил“, казва Глийв. „Започнахме да казваме „типично свръхчовешки“. Дейвид Ву, компютърен учен в Ню Йорк, който първи разработи KataGo, казва, че силните Go AI са „свръхчовешки средно“, но не и „в най-лошите случаи“.

Gleave казва, че констатациите могат да имат далечни последици за системите с изкуствен интелект, включително големи езикови модели, които са в основата на чатботове като ChatGPT. „Ключовият извод за AI е, че тези уязвимости ще бъдат трудни за справяне“, казва Глейв. „Ако не можем да разрешим проблема в проста област като Go, тогава изглежда има малка перспектива за коригиране на подобни проблеми като jailbreaks в ChatGPT в близко бъдеще.“

Какво означават резултатите за възможността за създаване на ИИ, който напълно надхвърля човешките способности, е по-малко ясно, казва Джан. „Въпреки че на пръв поглед това предполага, че хората могат да запазят важни когнитивни предимства пред ИИ за известно време“, казва той, „вярвам, че ключовото прозрение е, че Все още не разбираме напълно AI системите, които изграждаме днес.”