Kan Ai bovenmenselijk zijn? Defecten in de topspeler bot doen twijfelen op

Kan Ai bovenmenselijk zijn? Defecten in de topspeler bot doen twijfelen op
praat over Technology/ilya-sutske-openai-superintelligence.html" Data-track "data-label = "https://www.nytimes.com/2024/19/technology/ilya-sutske-openai-superIntelligence.html" Data-track-category = "Body Text Link"> Excessive Artificial Intelligence (KI) Spelers in de wereld die aantoont dat een dergelijke superioriteit fragiel kan zijn.
"Het papier laat een groot vraagteken achter over hoe het ambitieuze doel kan worden bereikt om robuuste AI-agenten van de echte wereld te bouwen die mensen kunnen vertrouwen", zegt Huan Zhang, computerwetenschapper aan de Urbana-Champay van de Universiteit van Illinois. Stephen Casper, een computerwetenschapper bij het Massachusetts Institute of Technology in Cambridge, voegt eraan toe: "Tot nu toe heeft het een aantal van de sterkste bewijzen geleverd dat het moeilijk is om geavanceerde modellen zo betrouwbaar te implementeren als u wilt."
De analyse die in juni
Wanneer het gaan, plaatsen twee spelers afwisselend zwart -witte stenen op een rooster om de stenen van de andere speler te omringen en vast te leggen. In 2022 rapporteerden onderzoekers over Geschikt door Katago
De eerste verdediging was er een die de Katago -ontwikkelaars al hadden gebruikt na de aanvallen van 2022: Katago -voorbeelden van spelsituaties die betrokken waren bij de aanvallen en het laten spelen om te leren spelen tegen deze situaties. Dit is vergelijkbaar met dat, omdat het over het algemeen het pal onderwees. Uit de auteurs van de nieuwste artikelen bleek echter dat een tegenstanders leerde deze bijgewerkte versie van Katago te verslaan en 91 % van de tijd won.
De tweede verdedigingsstrategie die het Gleave -team probeerde was iteratief: een versie van Katago trainen tegen Adversarielle Bots, vervolgens aanvallers op te leiden tegen de bijgewerkte Katago, enzovoort voor negen rondes. Maar dat leidde ook niet tot een onoverwinnelijke versie van Katago. De aanvallers bleven zwakke punten vinden, met de laatste aanval versloeg Katago 81 % van de tijd.
Als de derde verdedigingsstrategie hebben de onderzoekers een nieuw Go-Playing AI-systeem helemaal opnieuw getraind. Katago is gebaseerd op een berekeningsmodel dat bekend staat als het Convolutional Neural Network (CNN). De onderzoekers vermoedden dat CNN's zich te veel konden concentreren op lokale details en over het hoofd van de wereldwijde patronen. Daarom bouwden ze een GO-speler met een alternatief
En omdat mensen in staat zijn om de tactieken van de tegenstanders te gebruiken om leidende go-kis te verslaan, is het logisch om deze systemen bovenmenselijk te noemen? "Dit is een geweldige vraag waarmee ik zeker worstelde", zegt Gleave. "We zijn begonnen te zeggen" typisch bovenmenselijk "." David Wu, een computerwetenschapper in New York, die voor het eerst Katago ontwikkelde, zegt dat sterke go-kis "gemiddeld bovenmenselijk" zijn, maar niet "in het ergste geval". Gleave zegt dat de resultaten verreikende effecten kunnen hebben op AI-systemen, waaronder de Grote taalmodellen die zijn gebaseerd op chatbots zoals chatgpt . "De belangrijkste bevinding voor AI is dat deze zwakke punten moeilijk te elimineren zullen zijn", zegt Gleave. "Als we het probleem niet in een eenvoudig gebied als Go kunnen oplossen, lijkt er in de nabije toekomst weinig vooruitzicht te zijn op het oplossen van soortgelijke problemen als jailbreaks in Chatt." Wat de resultaten betekenen voor de mogelijkheid om een AI te creëren die de menselijke vaardigheden uitgebreid overschrijdt, is minder duidelijk, zegt Zhang. "Although this indicates superficially that people may still keep important cognitive advantages over AI," he says, "I think that the crucial knowledge is that We begrijpen de AI-systemen die we vandaag bouwen nog niet volledig .
- >
-
tseng, T., McLean, E., Pelrine, K., Wang, T. T. & Gleave, A. Preprint op arxiv https://doi.org/10.48550/arxiv.2406.12843 (2024).
-
Wang, T. T. et al. Preprint op arxiv > https://doi.org/10.48550/arxiv.2211.00241 .