Може ли AI да бъде свръхчовек? Дефектите в бота на най-добрия играч пораждат съмнения

Dr. Friedrich Schmidt

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am 08.07.2024

Sprache:

Изследванията показват, че дори суперинтелектите са уязвими в играта Го. Научете как AI системи като KataGo се борят срещу атаки и какво въздействие може да има това върху развитието на AI системи.

Forschung zeigt, dass selbst Superintelligenzen im Go-Spiel anfällig sind. Erfahren Sie, wie KI-Systeme wie KataGo gegen Angriffe kämpfen und welche Auswirkungen dies auf die Entwicklung von KI-Systemen haben könnte. — Изследванията показват, че дори суперинтелектите са уязвими в играта Го. Научете как AI системи като KataGo се борят срещу атаки и какво въздействие може да има това върху развитието на AI системи.

Разговори за свръхчовешки изкуствен интелект (AI) увеличаване. Но изследванията разкриха слабости в една от най-успешните AI системи - бот, който играе настолната игра Go и може да победи най-добрите човешки играчи в света - показвайки, че подобно превъзходство може да бъде крехко. Проучването повдига въпроси за това дали по-общите AI системи могат да бъдат уязвими на уязвимости, които биха могли да застрашат тяхната безопасност и надеждност и дори твърдението им, че са „свръхчовешки“.

„Документът оставя голяма въпросителна за това как да постигнем амбициозната цел за изграждане на стабилни, реални AI агенти, на които хората могат да се доверят“, казва Хуан Джан, компютърен учен в Университета на Илинойс Урбана-Шампейн. Стивън Каспър, компютърен учен в Масачузетския технологичен институт в Кеймбридж, добавя: „Това предоставя едни от най-силните доказателства досега, че е трудно да се прилагат усъвършенствани модели толкова надеждно, колкото човек би искал.“

Анализът през юни публикуван онлайн като предпечат¹и все още не е рецензиран от партньори, използва така наречените състезателни атаки - въвеждането на AI системи които имат за цел да накарат системите да правят грешки, независимо дали за изследователски цели или за злонамерени цели. Например, определени входни данни могат да „разбиват“ чатботовете чрез излъчване на злонамерена информация, която те обикновено трябва да потискат.

В Go двама играчи се редуват да поставят черни и бели камъни върху решетка, за да заобиколят и уловят камъните на другия играч. През 2022 г. изследователите докладваха за обучение на конкурентни ботове с изкуствен интелект, за да победят KataGo², най-добрата AI система с отворен код Go-playing, която обикновено побеждава най-добрите хора с ръка (и без ръка). Техните ботове откриваха уязвимости, които редовно побеждаваха KataGo, въпреки че ботовете не бяха много добри в противен случай - хората аматьори можеха да ги победят. Освен това хората успяха да разберат и използват триковете на ботовете, за да победят KataGo.

Експлоатация на KataGo

Дали това беше еднократно, или тази работа посочи фундаментална слабост на KataGo – и, като разширение, други AI системи с привидно свръхчовешки способности? За да проучат това, изследователи, ръководени от Адам Глийв, изпълнителен директор на FAR AI, изследователска организация с нестопанска цел в Бъркли, Калифорния, и съавтор на статията от 2022 г., използват AI², конкурентни ботове за тестване на три начина за защита на Go AI срещу подобни атаки¹.

Първата защита беше тази, която разработчиците на KataGo вече бяха използвали след атаките от 2022 г.: давайки на KataGo примери за игрови ситуации, които са участвали в атаките, и я оставяха да играе, за да се научи как да играе срещу тези ситуации. Това е подобно на начина, по който обикновено се учи да се играе Го. Въпреки това, авторите на последната статия установиха, че противников бот се е научил да победи дори тази актуализирана версия на KataGo и е спечелил 91% от времето.

Втората отбранителна стратегия, която екипът на Gleave опита, беше итеративна: обучение на версия на KataGo срещу противникови ботове, след това обучение на нападатели срещу актуализирания KataGo и така нататък в продължение на девет рунда. Но дори това не доведе до непобедима версия на KataGo. Нападателите продължиха да намират уязвимости, като последната атака победи KataGo в 81% от случаите.

Като трета отбранителна стратегия, изследователите обучиха нова AI система за игра Go-playing от нулата. KataGo се основава на изчислителен модел, известен като конволюционна невронна мрежа (CNN). Изследователите подозираха, че CNN може да се фокусира твърде много върху местните детайли и да пропусне глобалните модели. Така те създадоха Go плейър с алтернатива невронна мрежа наречен визуален трансформатор (ViT). Но техният противников бот намери нова атака, която му помогна да спечели срещу системата ViT в 78% от случаите.

Слаби противници

Във всички тези случаи противниковите ботове – макар и способни да победят KataGo и други водещи системи за игра на Go – бяха обучени да откриват скрити уязвимости в други AI, вместо да бъдат добре закръглени стратези. „Противниците все още са доста слаби – победихме ги доста лесно“, казва Глейв.

И тъй като хората са в състояние да използват тактиката на състезателни ботове, за да победят водещите Go AI, има ли смисъл все още да наричаме тези системи свръхчовешки? „Това е страхотен въпрос и такъв, с който определено съм се борил“, казва Глийв. „Започнахме да казваме „типично свръхчовешки“. Дейвид Ву, компютърен учен в Ню Йорк, който първи разработи KataGo, казва, че силните Go AI са „свръхчовешки средно“, но не и „в най-лошите случаи“.

Gleave казва, че констатациите могат да имат далечни последици за системите с изкуствен интелект, включително големи езикови модели, които са в основата на чатботове като ChatGPT. „Ключовият извод за AI е, че тези уязвимости ще бъдат трудни за справяне“, казва Глейв. „Ако не можем да разрешим проблема в проста област като Go, тогава изглежда има малка перспектива за коригиране на подобни проблеми като jailbreaks в ChatGPT в близко бъдеще.“

Какво означават резултатите за възможността за създаване на ИИ, който напълно надхвърля човешките способности, е по-малко ясно, казва Джан. „Въпреки че на пръв поглед това предполага, че хората могат да запазят важни когнитивни предимства пред ИИ за известно време“, казва той, „вярвам, че ключовото прозрение е, че Все още не разбираме напълно AI системите, които изграждаме днес.”

Tseng, T., McLean, E., Pelrine, K., Wang, T. T. & Gleave, A. Preprint в arXiv https://doi.org/10.48550/arXiv.2406.12843 (2024).
Уанг, Т.Т.et al.Предпечат в arXiv https://doi.org/10.48550/arXiv.2211.00241 (2022).

Изтегляне на източници

Може ли AI да бъде свръхчовек? Дефектите в бота на най-добрия играч пораждат съмнения

Експлоатация на KataGo

Слаби противници

Weitersagen oder Speichern

Das Neueste

Naturheilkunde im Aufwind: Politische Reformen stärken alternative Heilmethoden!

Abschirmung von Elektrosmog: Preiswert und Einfach

CBD-Produkte im Fokus: Rechtliche Lage und Forschung auf dem Prüfstand!

Ashwagandha: Wundermittel oder Risiko? Die Wahrheit über die Heilpflanze!

Longevity: Mehr als ein Trend?