Gesprekken over bovenmenselijke kunstmatige intelligentie (AI) toename. Maar onderzoek heeft zwakke punten aan het licht gebracht in een van de meest succesvolle AI-systemen – een bot die het bordspel Go speelt en de beste menselijke spelers ter wereld kan verslaan – waaruit blijkt dat een dergelijke superioriteit kwetsbaar kan zijn. De studie roept vragen op over de vraag of meer algemene AI-systemen kwetsbaar zouden kunnen zijn voor kwetsbaarheden die hun veiligheid en betrouwbaarheid in gevaar zouden kunnen brengen, en zelfs hun claim ‘bovenmenselijk’ te zijn.

“Het artikel laat een groot vraagteken achter over hoe het ambitieuze doel bereikt kan worden: het bouwen van robuuste, echte AI-agenten die mensen kunnen vertrouwen”, zegt Huan Zhang, een computerwetenschapper aan de Universiteit van Illinois Urbana-Champaign. Stephen Casper, een computerwetenschapper aan het Massachusetts Institute of Technology in Cambridge, voegt hieraan toe: "Het levert een van de sterkste bewijzen tot nu toe dat het moeilijk is om geavanceerde modellen zo betrouwbaar te implementeren als je zou willen."

De analyse in juni online gepubliceerd als preprint 1en is nog niet door vakgenoten beoordeeld, maakt gebruik van zogenaamde vijandige aanvallen – de input van AI-systemen die tot doel hebben de systemen fouten te laten maken, hetzij voor onderzoeksdoeleinden, hetzij voor kwaadaardige doeleinden. Bepaalde invoer kan chatbots bijvoorbeeld 'jailbreaken' door kwaadaardige informatie uit te zenden die ze normaal gesproken zouden moeten onderdrukken.

In Go plaatsen twee spelers om de beurt zwarte en witte stenen op een rooster om de stenen van de andere speler te omsingelen en op te sluiten. In 2022 rapporteerden onderzoekers het trainen van vijandige AI-bots om KataGo te verslaan 2, het beste open-source Go-playing AI-systeem dat de beste mensen meestal handig (en handloos) verslaat. Hun bots ontdekten kwetsbaarheden die KataGo regelmatig versloegen, ook al waren de bots verder niet zo goed: menselijke amateurs konden ze verslaan. Bovendien konden mensen de trucs van de bots begrijpen en gebruiken om KataGo te verslaan.

Exploitatie van KataGo

Was dit eenmalig, of duidde dit werk op een fundamentele zwakte van KataGo – en, bij uitbreiding, van andere AI-systemen met schijnbaar bovenmenselijke vermogens? Om dit te onderzoeken gebruiken onderzoekers onder leiding van Adam Gleave, uitvoerend directeur van FAR AI, een non-profit onderzoeksorganisatie in Berkeley, Californië, en co-auteur van het artikel uit 2022, AI 2, vijandige bots om drie manieren te testen om Go AI's tegen dergelijke aanvallen te verdedigen 1.

De eerste verdediging was er een die de KataGo-ontwikkelaars al hadden gebruikt na de aanvallen van 2022: KataGo voorbeelden geven van spelsituaties die bij de aanvallen betrokken waren en het laten spelen om te leren hoe tegen die situaties te spelen. Dit is vergelijkbaar met hoe het doorgaans wordt geleerd om Go te spelen. De auteurs van het laatste artikel ontdekten echter dat een vijandige bot zelfs deze bijgewerkte versie van KataGo wist te verslaan en 91% van de tijd won.

De tweede verdedigingsstrategie die het team van Gleave probeerde, was iteratief: een versie van KataGo trainen tegen vijandige bots, vervolgens aanvallers trainen tegen de bijgewerkte KataGo, enzovoort, gedurende negen ronden. Maar zelfs dat leidde niet tot een onoverwinnelijke versie van KataGo. De aanvallers bleven kwetsbaarheden vinden, waarbij de laatste aanval KataGo in 81% van de gevallen versloeg.

Als derde verdedigingsstrategie trainden de onderzoekers een nieuw Go-playing AI-systeem helemaal opnieuw. KataGo is gebaseerd op een computermodel dat bekend staat als een convolutioneel neuraal netwerk (CNN). De onderzoekers vermoedden dat CNN’s zich te veel op lokale details zouden concentreren en mondiale patronen zouden missen. Dus bouwden ze een Go-speler met een alternatief neuraal netwerk zogenaamde vision-transformator (ViT). Maar hun vijandige bot vond een nieuwe aanval waardoor hij 78% van de tijd kon winnen van het ViT-systeem.

Zwakke tegenstanders

In al deze gevallen werden de vijandige bots – hoewel ze KataGo en andere toonaangevende Go-playing-systemen konden verslaan – getraind om verborgen kwetsbaarheden in andere AI’s te ontdekken, in plaats van om veelzijdige strategen te zijn. “De tegenstanders zijn nog steeds behoorlijk zwak – we hebben ze vrij gemakkelijk verslagen”, zegt Gleave.

En aangezien mensen de tactieken van vijandige bots kunnen gebruiken om toonaangevende Go AI's te verslaan, is het dan nog steeds logisch om deze systemen bovenmenselijk te noemen? "Dat is een geweldige vraag en een vraag waar ik zeker mee heb geworsteld", zegt Gleave. “We begonnen te zeggen: ‘typisch bovenmenselijk’.” David Wu, een computerwetenschapper uit New York die KataGo voor het eerst ontwikkelde, zegt dat sterke Go AI's 'gemiddeld bovenmenselijk' zijn, maar niet 'in de ergste gevallen'.

Gleave zegt dat de bevindingen verstrekkende gevolgen kunnen hebben voor AI-systemen, waaronder de grote taalmodellen die ten grondslag liggen aan chatbots zoals ChatGPT. “De belangrijkste conclusie voor AI is dat deze kwetsbaarheden moeilijk aan te pakken zullen zijn”, zegt Gleave. "Als we het probleem niet kunnen oplossen op een eenvoudig gebied als Go, dan lijkt er weinig vooruitzicht te zijn om soortgelijke problemen zoals jailbreaks in ChatGPT in de nabije toekomst op te lossen."

Wat de resultaten betekenen voor de mogelijkheid om AI te creëren die de menselijke capaciteiten ruimschoots overtreft, is minder duidelijk, zegt Zhang. “Hoewel dit er op het eerste gezicht op wijst dat mensen nog enige tijd belangrijke cognitieve voordelen ten opzichte van AI kunnen behouden”, zegt hij, “denk ik dat het belangrijkste inzicht is dat We begrijpen de AI-systemen die we vandaag de dag bouwen nog niet volledig.”