Vestlused teemal üliinimlik tehisintellekt (AI) suurendada. Kuid uuringud on paljastanud nõrkusi ühes kõige edukamas AI-süsteemis – lauamängu Go mängivas robotis, mis suudab võita maailma parimaid inimmängijaid –, mis näitab, et selline paremus võib olla habras. Uuring tõstatab küsimuse selle kohta, kas üldisemad AI-süsteemid võivad olla haavatavad haavatavuste suhtes, mis võivad ohustada nende turvalisust ja töökindlust ning isegi nende väidet, et nad on "üleinimlikud".
"Paber jätab suure küsimärgi selle kohta, kuidas saavutada ambitsioonikas eesmärk luua tugevaid reaalseid tehisintellekti agente, mida inimesed saavad usaldada," ütleb Illinoisi Urbana-Champaigni ülikooli arvutiteadlane Huan Zhang. Cambridge'i Massachusettsi Tehnoloogiainstituudi arvutiteadlane Stephen Casper lisab: "See annab ühe seni tugevaima tõendi selle kohta, et täiustatud mudeleid on raske rakendada nii usaldusväärselt, kui tahaks."
Analüüs juunis avaldatud internetis eeltrükina 1ja seda pole veel eelretsenseeritud, kasutab nn võistlevaid rünnakuid – tehisintellektisüsteemide sisendit mille eesmärk on põhjustada süsteemides vigu, kas uurimiseesmärkidel või pahatahtlikel eesmärkidel. Näiteks võivad teatud sisendid "jailbreak" vestlusrobotid väljastada pahatahtlikku teavet, mida nad peaksid tavaliselt maha suruma.
Mängus Go asetavad kaks mängijat kordamööda mustad ja valged kivid ruudustikule, et ümbritseda ja püüda teise mängija kive. 2022. aastal teatasid teadlased võistlevate AI-robotite treenimine KataGo alistamiseks 2, parim avatud lähtekoodiga Go-playing AI-süsteem, mis tavaliselt võidab parimaid inimesi käega (ja ilma käepidemeta). Nende robotid leidsid turvaauke, mis alistasid KataGo regulaarselt, kuigi need robotid ei olnud muidu kuigi head – inimamatöörid võisid neist jagu saada. Lisaks suutsid inimesed KataGo alistamiseks robotite trikke mõista ja kasutada.
KataGo kasutamine
Kas see oli ühekordne või viitas see töö KataGo – ja laiemalt ka teiste näiliselt üliinimlike võimetega AI-süsteemide – fundamentaalsele nõrkusele? Selle uurimiseks kasutavad teadlased, keda juhib Adam Gleave, Californias Berkeleys asuva mittetulundusliku uurimisorganisatsiooni FAR AI tegevdirektor ja 2022. aasta artikli kaasautor, tehisintellekti. 2, võistlevad robotid, et testida kolme võimalust Go AI-de kaitsmiseks selliste rünnakute eest 1.
Esimene kaitse oli selline, mida KataGo arendajad olid kasutanud juba pärast 2022. aasta rünnakuid: tuues KataGole näiteid rünnakutesse kaasatud mänguolukordadest ja lastes tal mängida, et õppida nende olukordade vastu mängima. See on sarnane sellega, kuidas üldiselt õpetatakse Go-d mängima. Viimase artikli autorid leidsid aga, et konkureeriv bot õppis võitma isegi seda KataGo uuendatud versiooni ja võitis 91% ajast.
Teine kaitsestrateegia, mida Gleave'i meeskond proovis, oli iteratiivne: KataGo versiooni treenimine konkureerivate robotite vastu, seejärel ründajate treenimine uuendatud KataGo vastu ja nii edasi üheksa vooru jooksul. Kuid isegi see ei viinud KataGo võitmatu versioonini. Ründajad jätkasid turvaaukude leidmist, viimane rünnak alistas KataGo 81% juhtudest.
Kolmanda kaitsestrateegiana õpetasid teadlased nullist välja uue Go-playing AI-süsteemi. KataGo põhineb arvutusmudelil, mida tuntakse konvolutsioonilise närvivõrgu (CNN) nime all. Teadlased kahtlustasid, et CNN-id võivad keskenduda liiga palju kohalikele detailidele ja jätta tähelepanuta globaalsed mustrid. Nii ehitasid nad alternatiiviga Go-mängija närvivõrk nimetatakse nägemistrafoks (ViT). Kuid nende vastandlik robot leidis uue rünnaku, mis aitas tal ViT-süsteemi vastu võita 78% ajast.
Nõrgad vastased
Kõigil neil juhtudel koolitati konkureerivaid roboteid – kuigi nad olid võimelised KataGot ja teisi juhtivaid Go-playing süsteeme võitma – avastama teiste tehisintellektide varjatud haavatavusi, selle asemel, et olla hästi läbimõeldud strateegid. "Vastased on endiselt üsna nõrgad – võitsime neid üsna kergelt," ütleb Gleave.
Ja kuna inimesed saavad juhtivate Go AI-de alistamiseks kasutada võistlevate robotite taktikat, siis kas on ikka mõtet neid süsteeme üliinimlikeks nimetada? "See on suurepärane küsimus, millega ma olen kindlasti maadelnud," ütleb Gleave. "Hakkasime ütlema: "tavaliselt üliinimlik". KataGo esmakordselt välja töötanud New Yorgi arvutiteadlane David Wu ütleb, et tugevad Go AI-d on "keskmiselt üliinimlikud", kuid mitte "halvimatel juhtudel".
Gleave ütleb, et leidudel võib olla kaugeleulatuv mõju AI-süsteemidele, sealhulgas suured keelemudelid, mis on selliste vestlusrobotite, nagu ChatGPT, aluseks. Gleave ütleb: "AI peamine põhjus on see, et neid haavatavusi on raske kõrvaldada. "Kui me ei suuda probleemi lahendada sellises lihtsas valdkonnas nagu Go, siis tundub, et lähitulevikus on vähe väljavaateid sarnaste probleemide, nagu ChatGPT jailbreakide, parandamiseks."
Zhang ütleb, et see, mida tulemused tähendavad inimese võimeid igakülgselt ületava AI loomise võimaluse jaoks, on vähem selge. "Kuigi pealtnäha viitab see sellele, et inimestel võivad mõneks ajaks säilida olulised kognitiivsed eelised tehisintellekti ees," ütleb ta, "ma usun, et peamine arusaam on see, et Me ei mõista veel täielikult AI-süsteeme, mida täna ehitame.”
