Vai AI var būt pārcilvēcīgs? Defekti labākā spēlētāja robotprogrammā rada šaubas

Pētījumi rāda, ka pat superintelligence go spēlē ir jutīga. Uzziniet, kā tādas AI sistēmas kā Katago cīnās pret uzbrukumiem un kāda ietekme tam varētu ietekmēt AI sistēmu attīstību.
(Symbolbild/natur.wiki)

Vai AI var būt pārcilvēcīgs? Defekti labākā spēlētāja robotprogrammā rada šaubas

Pārmērīga mākslīgā intelekta (KI) Tomēr, lai iegūtu labākos vājumus, kas ir vislielākie, kas ir vislielākie, kas ir vienam no visām veiksmīgākajām vājuma iespējām, kas ir vislielākā vāve. Pasaulē, kas parāda, ka šāds pārākums var būt trausls.

"Papīrs atstāj lielu jautājuma zīmi par to, kā var sasniegt vērienīgo mērķi, lai izveidotu spēcīgus reālās pasaules AI aģentus, kuriem cilvēki var uzticēties," saka Huans Zhangs, Ilinoisas Urbana-Champay universitātes datorzinātnieks. Stefans Kaspers, Kembridžas Masačūsetsas Tehnoloģiju institūta datorzinātnieks, piebilst: "Pagaidām tas ir sniedzis dažus no spēcīgākajiem pierādījumiem, ka ir grūti ieviest uzlabotus modeļus tikpat droši, cik vēlaties."

Analīze, kas jūnijā 1 un vēl nav bijis recenzēts, izmantojot AI sistēmas ierakstus Vieta, kuras mērķis ir vilināt sistēmas kļūdām , neatkarīgi no tā, vai tas ir pētniecības nolūkos vai ļaunprātīgiem mērķiem. Piemēram, daži ieraksti var “jailbreaks” tērzēšanas robotus, izsniedzot kaitīgu informāciju, kas jums parasti vajadzētu apspiest.

Kad gājiens, divi spēlētāji pārmaiņus novieto melnbaltu akmeņus uz režģa, lai apņemtu un notvertu otra spēlētāja akmeņus. 2022. gadā pētnieki ziņoja par sakāvē katago 1 .

Pirmā aizsardzība bija tāda, kādu Katago izstrādātāji jau bija izmantojuši pēc 2022. gada uzbrukumiem: Katago spēļu situāciju piemēri, kas bija iesaistīti uzbrukumos, un ļāva tai spēlēt, lai iemācītos spēlēt pret šīm situācijām. Tas ir līdzīgs tam, jo ​​tas parasti mācīja gājienu. Tomēr jaunāko rakstu autori atklāja, ka pretrunīgs piedāvājums iemācījās pārspēt šo atjaunināto Katago versiju un uzvarēja 91 % laika.

Otrā aizsardzības stratēģija, kuru izmēģināja Gleave komanda, bija iteratīva: apmācīt Katago versiju pret pretinieku robotiem, pēc tam apmācīt uzbrucējus pret atjaunināto Katago utt. Bet tas arī neradīja neuzvaramu Katago versiju. Uzbrucēji turpināja atrast vājās vietas, un pēdējais uzbrukums Katago sakāva 81 % laika.

Kā trešā aizsardzības stratēģija, pētnieki no nulles apmācīja jaunu GO-Playing AI sistēmu. Katago ir balstīts uz aprēķina modeli, kas pazīstams kā konvolūcijas neironu tīkls (CNN). Pētniekiem bija aizdomas, ka CNN varētu pārāk koncentrēties uz vietējām detaļām un ignorēt globālos modeļus. Tāpēc viņi uzcēla Go atskaņotāju ar alternatīvu

Un tā kā cilvēki spēj izmantot pretinieku robotu taktiku, lai pieveiktu vadošo go-kis, vai ir jēga saukt šīs sistēmas pārcilvēciskas? "Šis ir lielisks jautājums, ar kuru es noteikti cīnos," saka Gleave. "Mēs esam sākuši teikt" parasti pārcilvēcīgi "." Deivids Vu, datorzinātnieks Ņujorkā, kurš pirmo reizi attīstīja Katago, saka, ka spēcīgi go-kis ir "vidēji pārcilvēciski", bet ne "sliktākajos gadījumos".

Gleave saka, ka rezultātiem varētu būt tālejoša ietekme uz AI sistēmām, ieskaitot Lielo valodu modeļi, kuru pamatā ir tādi tērzēšanas roboti kā chatgpt . "Vissvarīgākais AI atklājums ir tas, ka šos vājos punktus būs grūti novērst," saka Gleave. "Ja mēs nevaram atrisināt problēmu tādā vienkāršā apgabalā kā Go, tad šķiet, ka tuvākajā nākotnē ir maz iespēju risināt līdzīgas problēmas, piemēram, jailbreaks."

Tas, ko rezultāti nozīmē iespēju radīt AI, kas plaši pārsniedz cilvēku prasmes, ir mazāk skaidrs, saka Zhang. "Lai gan tas virspusēji norāda uz to, ka cilvēki joprojām var saglabāt svarīgas izziņas priekšrocības salīdzinājumā ar AI," viņš saka, "es domāju, ka izšķirošās zināšanas ir tādas, ka Mēs vēl pilnībā neizprotam AI sistēmas, kuras mēs šodien veidojam, "