Kas AI võib olla ülim in? Tippmängija defektid tekitavad kahtlusi

Kas AI võib olla ülim in? Tippmängija defektid tekitavad kahtlusi
räägib Technology/ilya-sutske-openaii-superintelligence.html" Data-Track "Data-Track" "https://www.nytimes.com/2024/19/technology/ilya-sutske-openai-superintelligence.html" Data-Track-category = "Body Text Link"> Liigsed tehisintellekti (KI), mis on tehtud, on see, et see on üks kord. Maailma parimad mängijad näitavad, et selline paremus võib olla habras.
"Paber jätab suure küsimärgi selle kohta, kuidas ambitsioonikat eesmärki saavutada reaalse maailma tugevate AI agentide ehitamiseks, mida inimesed saavad usaldada," ütleb Illinoisi ülikooli Urbana-Champay arvutiteadlane Huan Zhang. Cambridge'i Massachusettsi tehnoloogiainstituudi arvutiteadlane Stephen Casper lisab: "Siiani on see pakkunud kõige tugevamaid tõendeid selle kohta, et täiustatud mudeleid on keeruline nii usaldusväärselt rakendada kui soovite."
Analüüs, mis juunis 1 ja pole veel eelretsenseeritud kasutab AI-süsteemide kirjeid , mille eesmärk on süsteemid kiusata vigadele , olgu see siis uurimise eesmärgil või pahatahtlikel eesmärkidel. Näiteks saavad teatud kirjed vestlusprogrammid "Jailbreaksi", väljastades kahjuliku teabe, mida peaksite tavaliselt maha suruma.
Kui Go, asetavad kaks mängijat vaheldumisi mustvalgeid kive ruudustikku ümbritsemiseks ja teise mängija kivide jäädvustamiseks. Aastal 2022 teatasid teadlased umbes https://arxiv.org/abs/2211.00241 "data-track =" klõpsake "data-label =" https://arxiv.org/abs/2211.00241 "Data-Track-Category =" kehatekstide link "> " < Data-Track = "Click" Data Action = "Anchor-Link" Data Track Label = "minge viitele" Data Track kategooria = "Source Hatters (ja käsitöö). Tema robotid leidsid nõrkusi, mis alistasid Katago regulaarselt, ehkki robotid ei olnud muidu eriti head - inimlikud amatöörid suutsid neid lüüa. Lisaks said inimesed Katago alistamiseks robotite nippe mõista ja rakendada.
Katago kasutamine
Kas see oli ainulaadne asi või osutas see töö Katago-ja laienemise põhimõttelisele nõrkusele teistele AI-süsteemidele, millel on ilmselt üliinimlikud oskused? Selle uurimiseks on teadlased Californias Berkeleys asuva mittetulundusühingu Far AI tegevdirektori ADAM Gleave juhtimisel ja paberite kaasautor teemal 2022 1 .
Esimene kaitse oli üks, mida Katago arendajad olid juba pärast 2022. aasta rünnakuid kasutanud: Katago näited mängude olukordadest, mis olid seotud rünnakutega ja lasksid sellel mängida, et õppida nende olukordade vastu mängima. See sarnaneb sellega, kuna üldiselt õpetas GO -d. Uusimate paberite autorid leidsid aga, et võistleva pakkumine õppis selle Katago värskendatud versiooni ületamiseks ja võitis 91 % ajast. Teine kaitsestrateegia, mida Gleave'i meeskond üritas, oli iteratiivne: koolitada Katago versiooni vastane robotite vastu, seejärel koolitada ründajaid uuendatud Katago vastu ja nii edasi üheksa vooru. Kuid see ei viinud ka Katago võitmatu versioonini. Ründajad leidsid jätkuvalt nõrkusi, viimane rünnak Katago alistas 81 % ajast. Kolmanda kaitsestrateegiana koolitasid teadlased nullist uut Go-Playing AI-süsteemi. Katago põhineb arvutusmudelil, mida tuntakse konvolutsioonilise närvivõrgustikuna (CNN). Teadlased kahtlustasid, et CNN -id võivad keskenduda liiga palju kohalikele üksikasjadele ja vaatab tähelepanuta globaalsed mustrid. Seetõttu ehitasid nad GO-mängija alternatiiviga
Ja kuna inimesed on võimelised kasutama võistlevate robotite taktikat, et lüüa juhtida GO-KISi, kas on mõistlik neid süsteeme üliinimlikuks nimetada? "See on suurepärane küsimus, millega ma kindlasti maadlesin," ütleb Gleave. "Oleme hakanud ütlema" tavaliselt üliinimlik ". New Yorgi arvutiteadlane David Wu, kes esmakordselt Katago arendas, ütleb, et tugevad GO-kid on "keskmiselt üliinimlikud", kuid mitte "halvimatel juhtudel". Gleave ütleb, et tulemustel võib olla AI-süsteemide jaoks kaugeleulatuv mõju, sealhulgas Suured keelemudelid, mis põhinevad sellistel vestlusprogrammidel nagu ChatGpt . "AI jaoks on kõige olulisem leid, et neid nõrku punkte on keeruline kõrvaldada," ütleb Gleave. "Kui me ei saa probleemi lahendada sellises lihtsas piirkonnas nagu Go, siis tundub lähitulevikus vähe väljavaateid, et lahendada sarnaseid probleeme nagu Chatt jailbreak." Mida tulemused tähendavad võimalust luua AI, mis ületab inimoskusi ulatuslikult, on vähem selge, ütles Zhang. "Kuigi see näitab pealiskaudselt, et inimesed võivad AI suhtes siiski olulisi kognitiivseid eeliseid hoida," ütleb ta, "ma arvan, et olulised teadmised on see, et Me ei saa veel täielikult aru AI-süsteemidest, mida täna ehitame .
Tseng, T., McLean, E., Pelrine, K., Wang, T. T. T. & Gleave, A. Eeltöötlus arxivis https://doi.org/10.48550/arxiv.2406.12843 (2024).
wang, T. T. et al. Eeltrükk AT arxivis " https://doi.org/10.48550/arxiv.2211.00241 . nõrk vastane
Kõigil neil juhtudel on võistlevad robotid-ehkki nad suutsid Katago ja teisi juhtivaid go-mängimissüsteeme läbi lüüa, koolitati avastama teistes AIS-is varjatud nõrkusi ja mitte olema mitmekülgsed strateegid. "Vastased on endiselt üsna nõrgad - me alistasime nad üsna lihtsalt," ütleb Gleave.