Rozmowy o nadludzka sztuczna inteligencja (AI) zwiększyć. Jednak badania ujawniły słabości jednego z najskuteczniejszych systemów sztucznej inteligencji – bota, który gra w grę planszową Go i może pokonać najlepszych graczy na świecie – pokazując, że taka przewaga może być krucha. Badanie rodzi pytania dotyczące tego, czy bardziej ogólne systemy sztucznej inteligencji mogą być podatne na luki w zabezpieczeniach, które mogłyby zagrozić ich bezpieczeństwu i niezawodności, a nawet ich twierdzeniu, że są „nadludzkie”.

„Artykuł pozostawia duży znak zapytania co do tego, jak osiągnąć ambitny cel, jakim jest zbudowanie solidnych, rzeczywistych agentów sztucznej inteligencji, którym ludzie mogą zaufać” – mówi Huan Zhang, informatyk z Uniwersytetu Illinois w Urbana-Champaign. Stephen Casper, informatyk z Massachusetts Institute of Technology w Cambridge, dodaje: „Dostarcza to jednego z najmocniejszych jak dotąd dowodów na to, że trudno jest wdrażać zaawansowane modele tak niezawodnie, jak by się tego chciało”.

Analiza w czerwcu opublikowane w Internecie jako przeddruk 1i nie został jeszcze poddany recenzji, wykorzystuje tzw. ataki kontradyktoryjne – dane wejściowe systemów AI których celem jest spowodowanie błędów w systemach, czy to do celów badawczych, czy do celów złośliwych. Na przykład niektóre dane wejściowe mogą „łamać jail” chatbotów, emitując złośliwe informacje, które normalnie powinny ukrywać.

W Go dwóch graczy na zmianę umieszcza czarne i białe kamienie na siatce, aby otoczyć i uwięzić kamienie drugiego gracza. Badacze podali, że w 2022 r szkolenie wrogich botów AI, aby pokonać KataGo 2, najlepszy system sztucznej inteligencji typu open source do gry w Go, który zwykle z łatwością (i bez użycia rąk) pokonuje najlepszych ludzi. Ich boty znajdowały luki w zabezpieczeniach, które regularnie pokonywały KataGo, mimo że poza tym boty nie były zbyt dobre – ludzcy amatorzy mogliby je pokonać. Ponadto ludzie byli w stanie zrozumieć i wykorzystać sztuczki botów, aby pokonać KataGo.

Eksploatacja KataGo

Czy był to jednorazowy przypadek, czy też ta praca wskazała na fundamentalną słabość KataGo – a co za tym idzie, innych systemów sztucznej inteligencji o pozornie nadludzkich zdolnościach? Aby to zbadać, badacze pod kierownictwem Adama Gleave’a, dyrektora wykonawczego FAR AI, organizacji badawczej non-profit z Berkeley w Kalifornii i współautora artykułu z 2022 r., wykorzystują sztuczną inteligencję 2, boty kontradyktoryjne, aby przetestować trzy sposoby obrony AI Go przed takimi atakami 1.

Pierwszą obroną była ta, którą twórcy KataGo zastosowali już po atakach w 2022 r.: podając KataGo przykłady sytuacji w grze, które były zaangażowane w ataki, i pozwalając mu grać, aby nauczyć się grać przeciwko takim sytuacjom. Przypomina to ogólnie nauczaną grę w Go. Jednak autorzy najnowszego artykułu odkryli, że bot kontradyktoryjny nauczył się pokonywać nawet zaktualizowaną wersję KataGo i wygrywał w 91% przypadków.

Druga strategia obronna, którą wypróbował zespół Gleave’a, miała charakter iteracyjny: szkolenie wersji KataGo przeciwko wrogim botom, następnie szkolenie atakujących przeciwko zaktualizowanemu KataGo i tak dalej, przez dziewięć rund. Ale nawet to nie doprowadziło do niepokonanej wersji KataGo. Napastnicy w dalszym ciągu znajdowali luki w zabezpieczeniach, a najnowszy atak pokonał KataGo w 81% przypadków.

Jako trzecią strategię obronną naukowcy przeszkolili od podstaw nowy system sztucznej inteligencji Go-playing. KataGo opiera się na modelu obliczeniowym znanym jako splotowa sieć neuronowa (CNN). Naukowcy podejrzewali, że CNN mogą zbytnio skupiać się na szczegółach lokalnych i pomijać wzorce globalne. Zbudowali więc odtwarzacz Go z alternatywą sieć neuronowa zwany transformatorem wizyjnym (ViT). Jednak ich bot przeciwnika znalazł nowy atak, który pomógł mu wygrać z systemem ViT w 78% przypadków.

Słabi przeciwnicy

We wszystkich tych przypadkach wrogie boty – chociaż były w stanie pokonać KataGo i inne wiodące systemy Go-playing – zostały przeszkolone w zakresie odkrywania ukrytych luk w zabezpieczeniach innych AI, a nie bycia wszechstronnymi strategami. „Przeciwnicy są nadal dość słabi – dość łatwo ich pokonujemy” – mówi Gleave.

A skoro ludzie potrafią stosować taktykę wrogich botów, aby pokonać wiodące AI Go, czy nadal ma sens nazywanie tych systemów nadludzkimi? „To świetne pytanie, z którym zdecydowanie się zmagałem” – mówi Gleave. „Zaczęliśmy mówić: «typowo nadludzki»”. David Wu, informatyk z Nowego Jorku, który jako pierwszy opracował KataGo, twierdzi, że silne AI Go są „przeciętnie nadludzkie”, ale nie „w najgorszych przypadkach”.

Gleave twierdzi, że odkrycia mogą mieć daleko idące konsekwencje dla systemów sztucznej inteligencji, w tym dla duże modele językowe leżące u podstaw chatbotów, takich jak ChatGPT. „Kluczowym wnioskiem dla sztucznej inteligencji jest to, że te luki będą trudne do usunięcia” – mówi Gleave. „Jeśli nie uda nam się rozwiązać problemu w tak prostym obszarze, jak Go, wydaje się, że szanse na naprawienie w najbliższej przyszłości podobnych problemów, takich jak jailbreaki w ChatGPT, są nikłe”.

Mniej jasne jest, co wyniki oznaczają dla możliwości stworzenia sztucznej inteligencji, która kompleksowo przewyższa ludzkie możliwości, jest mniej jasne, mówi Zhang. „Chociaż na pozór sugeruje to, że ludzie mogą przez jakiś czas zachować istotną przewagę poznawczą nad sztuczną inteligencją”, mówi, „Uważam, że kluczowym spostrzeżeniem jest to, że Nie rozumiemy jeszcze w pełni systemów sztucznej inteligencji, które dziś budujemy.”