Pokalbiai apie antžmogiškas dirbtinis intelektas (AI) padidinti. Tačiau tyrimai atskleidė vienos sėkmingiausių dirbtinio intelekto sistemų – boto, žaidžiančio stalo žaidimą „Go“ ir galinčio įveikti geriausius žaidėjus pasaulyje – trūkumus, rodančius, kad toks pranašumas gali būti trapus. Tyrimas kelia klausimų, ar bendresnės dirbtinio intelekto sistemos gali būti pažeidžiamos pažeidžiamumų, galinčių kelti grėsmę jų saugumui ir patikimumui, ir netgi teigti, kad jos yra „antžmogiškos“.
„Straipsnyje paliekamas didelis klaustukas, kaip pasiekti ambicingą tikslą sukurti patikimus, realaus pasaulio AI agentus, kuriais žmonės galėtų pasitikėti“, – sako Huanas Zhangas, Ilinojaus universiteto Urbana-Champaign kompiuterių mokslininkas. Stephenas Casperas, kompiuterių mokslininkas iš Masačusetso technologijos instituto Kembridže, priduria: „Tai yra vieni tvirčiausių įrodymų, kad sudėtinga įdiegti pažangius modelius taip patikimai, kaip norėtųsi“.
Analizė birželio mėn paskelbtas internete kaip išankstinis spaudinys 1ir dar nebuvo peržiūrėtas, naudoja vadinamąsias priešiškas atakas – AI sistemų įvestį kurių tikslas yra priversti sistemos daryti klaidas, tyrimų ar piktybiniais tikslais. Pavyzdžiui, tam tikra įvestis gali „palaužti“ pokalbių robotus, skleisdama kenkėjišką informaciją, kurią jie paprastai turėtų slopinti.
Žaidime „Go“ du žaidėjai pakaitomis deda juodus ir baltus akmenis ant tinklelio, kad apsuptų ir gaudytų kito žaidėjo akmenis. Tyrėjai pranešė, kad 2022 m treniruoti priešiškus AI robotus, kad nugalėtų KataGo 2, geriausia atvirojo kodo „Go-playing AI“ sistema, kuri paprastai lengvai (ir be jokių problemų) įveikia geriausius žmones. Jų robotai aptiko pažeidžiamumą, kuris reguliariai nugalėjo KataGo, nors kitu atveju robotai nebuvo labai geri – žmonių mėgėjai galėjo juos nugalėti. Be to, žmonės sugebėjo suprasti ir panaudoti botų triukus, kad nugalėtų KataGo.
KataGo išnaudojimas
Ar tai buvo vienkartinis, ar šis darbas parodė esminį „KataGo“ ir kitų AI sistemų, turinčių iš pažiūros antžmogiškus sugebėjimus, silpnumą? Norėdami tai ištirti, tyrėjai, vadovaujami Adamo Gleave'o, FAR AI, ne pelno siekiančios tyrimų organizacijos Berklyje, Kalifornijoje, vykdomojo direktoriaus ir 2022 m. straipsnio bendraautorių, naudoja AI. 2, priešpriešinius robotus, kad išbandytų tris būdus, kaip apginti Go AI nuo tokių atakų 1.
Pirmoji gynyba buvo ta, kurią KataGo kūrėjai naudojo jau po 2022 m. atakų: pateikė KataGo žaidimo situacijų, kurios buvo įtrauktos į atakas, pavyzdžių ir leido žaisti, kad išmoktų žaisti prieš tas situacijas. Tai panašu į tai, kaip paprastai mokoma žaisti „Go“. Tačiau naujausio straipsnio autoriai nustatė, kad priešiškas robotas išmoko įveikti net šią atnaujintą KataGo versiją ir laimėjo 91% laiko.
Antroji gynybinė strategija, kurią išbandė Gleave'o komanda, buvo kartotinė: KataGo versijos treniruotė prieš priešiškus robotus, puolėjų mokymas prieš atnaujintą KataGo ir taip toliau devynis raundus. Tačiau net ir tai neprivedė prie neįveikiamos KataGo versijos. Užpuolikai ir toliau ieškojo pažeidžiamumų, o naujausia ataka nugalėjo KataGo 81% laiko.
Kaip trečioji gynybos strategija, mokslininkai nuo nulio parengė naują „Go-playing“ AI sistemą. KataGo yra pagrįsta skaičiavimo modeliu, žinomu kaip konvoliucinis neuroninis tinklas (CNN). Tyrėjai įtarė, kad CNN gali per daug sutelkti dėmesį į vietines detales ir praleisti pasaulinius modelius. Taigi jie sukūrė „Go“ grotuvą su alternatyva neuroninis tinklas vadinamas regėjimo transformatoriumi (ViT). Tačiau jų priešingas robotas rado naują ataką, kuri padėjo jam laimėti prieš ViT sistemą 78 % laiko.
Silpni varžovai
Visais šiais atvejais priešpriešiniai robotai, nors ir galintys įveikti KataGo ir kitas pirmaujančias „Go-playing“ sistemas, buvo mokomi atrasti paslėptus kitų AI pažeidžiamumus, o ne būti gerais strategais. „Varžovai vis dar gana silpni – mes juos gana lengvai įveikėme“, – sako Gleave'as.
Ir kadangi žmonės gali panaudoti priešiškų robotų taktiką, kad nugalėtų pirmaujančius Go AI, ar vis tiek prasminga šias sistemas vadinti antžmogiškomis? „Tai puikus klausimas, su kuriuo aš tikrai kovojau“, - sako Gleave'as. „Pradėjome sakyti: „paprastai antžmogiškas“. Davidas Wu, kompiuterių mokslininkas iš Niujorko, pirmasis sukūręs KataGo, teigia, kad stiprūs Go AI yra „vidutiniškai antžmogiški“, bet ne „blogiausiais atvejais“.
Gleave'as teigia, kad išvados gali turėti didelių pasekmių AI sistemoms, įskaitant dideli kalbų modeliai, kuriais remiasi tokie pokalbių robotai kaip „ChatGPT“.. „Pagrindinis AI privalumas yra tas, kad šiuos pažeidžiamumus bus sunku pašalinti“, - sako Gleave'as. „Jei negalime išspręsti problemos tokioje paprastoje srityje kaip „Go“, atrodo, kad artimiausiu metu yra mažai galimybių išspręsti panašias problemas, tokias kaip „Jailbreak“ programoje „ChatGPT“.
Ką rezultatai reiškia galimybei sukurti AI, visapusiškai pranokstančią žmogaus galimybes, yra mažiau aišku, sako Zhang. „Nors iš pažiūros tai rodo, kad žmonės kurį laiką gali išlaikyti svarbius pažintinius pranašumus, palyginti su AI“, – sako jis, – „Manau, kad pagrindinė įžvalga yra ta, kad Mes dar visiškai nesuprantame AI sistemų, kurias šiandien kuriame.
