<Фигура клас = "Фигура"> <източник type = "image/webp" srcset = "https://media.nature.com/lw767/magazine-assets/d41586-02218-7/d41586-02218-7_27308012.jpg?as=webp 767w, https://media.nature.com/lw319/magazine-assets/d41586-02218-7/d41586-02218-7_27308012.jpg?as=WEBP 319W "Размери =" (Max-width) 319px, (min-width: 1023px) 100vw, 76px

Говори за Прекомерно изкуствено интелект (KI) Увеличаване. Играчите в света, които показват, че подобно превъзходство може да бъде крехко

"Документът оставя голям въпрос за това как може да се постигне амбициозната цел за изграждане на стабилни агенти на ИИ от реалния свят, на които хората могат да се доверят", казва Хуан Джан, компютърен учен от Университета на Илинойс Урбана-Шампай. Стивън Каспър, компютърен учен от Масачузетския технологичен институт в Кеймбридж, добавя: „Досега той предоставя някои от най -силните доказателства, че е трудно да се прилагат напреднали модели толкова надеждно, колкото искате“.

The analysis that in June 1 and has not yet been peer-reviewed uses the AI ​​​​systems Entries поставете, които имат за цел да изкушат системите към грешки , било то за изследователски цели или за злонамерени цели. Например, някои записи могат да „джейлбрейк“ чатботи, като издават вредна информация, която обикновено трябва да потискате.

Когато отиде, двама играчи последователно поставят черно -бели камъни върху решетка, за да заобиколят и уловят камъните на другия играч. In 2022, researchers reported about Defeated by katago 2 , Adversarielle Bots За да тествате три опции, да защитавате GO-KIS срещу подобни атаки 1

Първата защита беше тази, която разработчиците на Катаго вече бяха използвали след атаките през 2022 г.: примери на Катаго за ситуации на игри, които участваха в атаките и го оставят да играе, за да се научи как да играе срещу тези ситуации. Това е подобно на това, тъй като като цяло преподава Go. Авторите на най -новите документи обаче откриха, че състезателно предложение се научи да победи тази актуализирана версия на Катаго и спечели 91 % от времето.

Втората стратегия за отбрана, която екипът на GLEAVE опита, беше итеративна: да обучи версия на Катаго срещу Adversarielle Bots, след това да обучи нападатели срещу актуализирания Катаго и така нататък за девет кръга. Но това също не доведе до непобедима версия на Катаго. Нападателите продължиха да намират слабости, като последната атака Катаго победи 81 % от времето.

Като трета стратегия за отбрана, изследователите обучиха нова AI система за игра на AI от нулата. Катаго се основава на модел на изчисление, известен като конволюционната невронна мрежа (CNN). Изследователите подозираха, че CNN могат да се концентрират твърде много върху местните детайли и да пренебрегват глобалните модели. Следователно, те изградиха GO плейър с алтернатива

Слаб опонент

Във всички тези случаи състезателните ботове-въпреки че те успяха да победят Катаго и други водещи системи за игра на игра, бяха обучени да откриват скрити слабости в други АИ, а не да бъдат многостранни стратези. „Противниците все още са доста слаби - победихме ги доста лесно“, казва Глийв.

И тъй като хората са в състояние да използват тактиката на състезателните ботове, за да победят водещите Go-KI, има ли смисъл да се нарича тези системи свръхчовешки? „Това е чудесен въпрос, с който определено се боря“, казва Gleave. „Започнахме да казваме„ обикновено свръхчовешки “. Дейвид Ву, компютърен учен в Ню Йорк, който за първи път е разработил Катаго, казва, че силните Go-KIS са „средно свръхчовешки“, но не „в най-лошите случаи“.

Gleave казва, че резултатите могат да имат далечни ефекти върху AI системи, включително Големи езикови модели, които са базирани на чатботи като Chatgpt . „Най -важната констатация за AI е, че тези слаби точки ще бъдат трудни за премахване“, казва Gleave. "Ако не можем да решим проблема в обикновена област като GO, тогава изглежда има малка перспектива в близко бъдеще на решаването на подобни проблеми като Jailbreaks в Чат."

Какво означават резултатите за възможността за създаване на AI, която надвишава широко човешките умения, е по -малко ясно, казва Джан. "Въпреки че това показва повърхностно, че хората все още могат да запазят важни познавателни предимства пред AI", казва той, "мисля, че решаващото знание е, че Все още не разбираме напълно AI системите, които изграждаме днес