Sarunas par pārcilvēcisks mākslīgais intelekts (AI) palielināt. Taču pētījumi ir atklājuši nepilnības vienā no veiksmīgākajām mākslīgā intelekta sistēmām - botā, kas spēlē galda spēli Go un var pārspēt labākos cilvēkus pasaulē, parādot, ka šāds pārākums var būt trausls. Pētījums rada jautājumus par to, vai vispārīgākas AI sistēmas varētu būt neaizsargātas pret ievainojamībām, kas varētu apdraudēt to drošību un uzticamību, un pat to apgalvojumu, ka tās ir "pārcilvēciskas".

"Dokuments atstāj lielu jautājuma zīmi par to, kā sasniegt ambiciozo mērķi izveidot stabilus, reālus mākslīgā intelekta aģentus, kuriem cilvēki var uzticēties," saka Huans Džans, Ilinoisas Universitātes Urbana-Champaign datorzinātnieks. Stīvens Kaspers, datorzinātnieks no Masačūsetsas Tehnoloģiju institūta Kembridžā, piebilst: "Tas sniedz dažus no spēcīgākajiem pierādījumiem, ka ir grūti ieviest progresīvus modeļus tik uzticami, kā gribētos."

Analīze jūnijā publicēts tiešsaistē kā iepriekšējs izdevums 1un vēl nav salīdzinoši pārskatīts, izmanto tā sauktos pretrunīgos uzbrukumus - AI sistēmas ievadi kuru mērķis ir izraisīt sistēmas kļūdas pētnieciskiem vai ļaunprātīgiem nolūkiem. Piemēram, noteiktas ievades var "jailbreak" tērzēšanas robotus, izstarojot ļaunprātīgu informāciju, kas tiem parasti būtu jāapspiež.

Spēlē Go divi spēlētāji pārmaiņus novieto melnus un baltus akmeņus uz režģa, lai aptvertu un notvertu otra spēlētāja akmeņus. 2022. gadā pētnieki ziņoja par apmācīt pretrunīgos AI robotus, lai uzvarētu KataGo 2, labākā atvērtā pirmkoda Go-playing AI sistēma, kas parasti pārspēj labākos cilvēkus viegli (un bez problēmām). Viņu robotprogrammatūra atrada ievainojamības, kas regulāri uzvarēja KataGo, lai gan citādi roboti nebija īpaši labi - cilvēku amatieri tos varēja uzvarēt. Turklāt cilvēki varēja saprast un izmantot robotu trikus, lai uzvarētu KataGo.

KataGo izmantošana

Vai tas bija vienreizējs gadījums, vai arī šis darbs norādīja uz KataGo un, attiecīgi, citu AI sistēmu ar šķietami pārcilvēciskām spējām, būtisku vājumu? Lai to izpētītu, pētnieki Adam Gleave, bezpeļņas pētniecības organizācijas FAR AI izpilddirektors Bērklijā, Kalifornijā, un 2022. gada dokumenta līdzautors, izmanto AI. 2, pretinieku roboti, lai pārbaudītu trīs veidus, kā aizsargāt Go AI pret šādiem uzbrukumiem 1.

Pirmā aizsardzība bija tāda, ko KataGo izstrādātāji jau izmantoja pēc 2022. gada uzbrukumiem: sniedza KataGo piemērus par spēles situācijām, kas bija iesaistītas uzbrukumos, un ļāva tai spēlēt, lai uzzinātu, kā spēlēt pret šīm situācijām. Tas ir līdzīgi tam, kā parasti māca spēlēt Go. Tomēr jaunākā raksta autori atklāja, ka pretinieku robots iemācījās pārspēt pat šo atjaunināto KataGo versiju un uzvarēja 91% gadījumu.

Otrā aizsardzības stratēģija, ko Glīva komanda izmēģināja, bija iteratīva: KataGo versijas apmācība pret pretinieku robotiem, pēc tam uzbrucēju apmācība pret atjaunināto KataGo un tā tālāk deviņas kārtas. Bet pat tas nenoveda pie neuzvaramas KataGo versijas. Uzbrucēji turpināja atrast ievainojamības, un jaunākais uzbrukums uzvarēja KataGo 81% gadījumu.

Kā trešo aizsardzības stratēģiju pētnieki apmācīja jaunu Go-playing AI sistēmu no nulles. KataGo pamatā ir skaitļošanas modelis, kas pazīstams kā konvolucionālais neironu tīkls (CNN). Pētniekiem bija aizdomas, ka CNN varētu pārāk daudz koncentrēties uz vietējām detaļām un palaist garām globālos modeļus. Tāpēc viņi izveidoja Go atskaņotāju ar alternatīvu neironu tīkls sauc par redzes transformatoru (ViT). Taču viņu pretinieku robots atrada jaunu uzbrukumu, kas palīdzēja tai uzvarēt pret ViT sistēmu 78% gadījumu.

Vāji pretinieki

Visos šajos gadījumos pretinieku roboti, lai gan tie spēj pārspēt KataGo un citas vadošās Go-playing sistēmas, tika apmācīti atklāt citu AI slēptās ievainojamības, nevis kļūt par labi noapaļotiem stratēģiem. "Pretinieki joprojām ir diezgan vāji - mēs viņus uzvarējām diezgan viegli," saka Glīvs.

Un, tā kā cilvēki var izmantot pretinieku robotu taktiku, lai uzvarētu vadošos Go AI, vai joprojām ir jēga šīs sistēmas saukt par pārcilvēciskām? "Tas ir lielisks jautājums, ar kuru es noteikti esmu cīnījies," saka Glīvs. "Mēs sākām teikt: "parasti pārcilvēcisks". Deivids Vu, datorzinātnieks no Ņujorkas, kurš pirmais izstrādāja KataGo, saka, ka spēcīgi Go AI ir "vidēji pārcilvēki", bet ne "sliktākajos gadījumos".

Gleave saka, ka atklājumiem varētu būt tālejoša ietekme uz AI sistēmām, tostarp lieli valodu modeļi, kas ir pamatā tādiem tērzēšanas robotiem kā ChatGPT. "Galvenais mākslīgā intelekta aspekts ir tas, ka šīs ievainojamības būs grūti novērst," saka Glīvs. "Ja mēs nevaram atrisināt problēmu tādā vienkāršā jomā kā Go, šķiet, ka tuvākajā nākotnē ir maz iespēju novērst līdzīgas problēmas, piemēram, jailbreaks pakalpojumā ChatGPT."

Zhang saka, ka tas, ko rezultāti nozīmē iespējai izveidot AI, kas visaptveroši pārsniedz cilvēka spējas, ir mazāk skaidrs. "Lai gan virspusē tas liecina, ka cilvēki kādu laiku var saglabāt svarīgas kognitīvās priekšrocības salīdzinājumā ar AI," viņš saka, "es uzskatu, ka galvenais ieskats ir tāds, ka Mēs vēl pilnībā neizprotam AI sistēmas, kuras mēs šodien veidojam ”.