Keskusteluja aiheesta yli-inhimillinen tekoäly (AI) lisätä. Mutta tutkimukset ovat paljastaneet heikkouksia yhdessä menestyneimmistä tekoälyjärjestelmistä - Botista, joka pelaa Go-lautapeliä ja voi voittaa maailman parhaat ihmispelaajat - mikä osoittaa, että tällainen ylivoima voi olla hauras. Tutkimus herättää kysymyksiä siitä, voisivatko yleisemmät tekoälyjärjestelmät olla haavoittuvia haavoittuvuuksille, jotka voivat uhata niiden turvallisuutta ja luotettavuutta ja jopa väittää olevansa "yli-inhimillisiä".

"Paperi jättää suuren kysymysmerkin siitä, kuinka saavuttaa kunnianhimoinen tavoite rakentaa vankkoja, todellisia tekoälyagentteja, joihin ihmiset voivat luottaa", sanoo Huan Zhang, tietojenkäsittelytieteilijä Illinoisin yliopiston Urbana-Champaignista. Stephen Casper, Cambridgen Massachusetts Institute of Technologyn tietojenkäsittelytieteilijä, lisää: "Se tarjoaa tähän mennessä vahvimpia todisteita siitä, että edistyneitä malleja on vaikea toteuttaa niin luotettavasti kuin haluaisi."

Analyysi kesäkuussa julkaistu verkossa preprintina 1ja sitä ei ole vielä vertaisarvioitu, käyttää niin kutsuttuja vastustavia hyökkäyksiä - tekoälyjärjestelmien syöte joiden tarkoituksena on saada järjestelmät tekemään virheitä, joko tutkimustarkoituksiin tai haitallisiin tarkoituksiin. Esimerkiksi tietyt syötteet voivat "jailbreak" chatbotit lähettämällä haitallisia tietoja, jotka niiden pitäisi normaalisti tukahduttaa.

Go-pelissä kaksi pelaajaa asettavat vuorotellen mustia ja valkoisia kiviä ruudukolle ympäröidäkseen ja vangitakseen toisen pelaajan kivet. Vuonna 2022 tutkijat raportoivat kouluttaa kilpailevia AI-botteja kukistamaan KataGo 2, paras avoimen lähdekoodin Go-playing AI-järjestelmä, joka yleensä voittaa parhaat ihmiset kätevästi (ja vaivatta). Heidän robottinsa löysivät haavoittuvuuksia, jotka voittivat KataGon säännöllisesti, vaikka botit eivät muuten olleet kovin hyviä – ihmisamatöörit pystyivät voittamaan ne. Lisäksi ihmiset pystyivät ymmärtämään ja käyttämään bottien temppuja KataGon kukistamiseen.

KataGon hyväksikäyttö

Oliko tämä kertaluonteinen vai osoittiko tämä työ KataGon perustavanlaatuiseen heikkouteen – ja laajemmin muihin tekoälyjärjestelmiin, joilla on näennäisesti yli-inhimillisiä kykyjä? Tutkiakseen tätä tutkijat, joita johtaa Adam Gleave, voittoa tavoittelemattoman tutkimusorganisaation FAR AI:n pääjohtaja Berkeleyssä, Kaliforniassa, ja vuoden 2022 artikkelin toinen kirjoittaja, käyttävät tekoälyä. 2, kilpailevia robotteja testatakseen kolmea tapaa puolustaa Go AI:ta tällaisia ​​hyökkäyksiä vastaan 1.

Ensimmäinen puolustus oli sellainen, jota KataGo-kehittäjät käyttivät jo vuoden 2022 hyökkäysten jälkeen: antoivat KataGolle esimerkkejä hyökkäyksiin liittyneistä pelitilanteista ja annoivat sen pelata oppiakseen pelaamaan näitä tilanteita vastaan. Tämä on samanlaista kuin yleensä opetetaan pelaamaan Goa. Viimeisimmän artikkelin kirjoittajat havaitsivat kuitenkin, että vastustajabot oppi voittamaan tämänkin KataGon päivitetyn version ja voitti 91 % ajasta.

Toinen puolustusstrategia, jota Gleaven tiimi yritti kokeilla, oli iteratiivinen: KataGon version harjoittaminen vihollisbotteja vastaan, sitten hyökkääjien kouluttaminen päivitettyä KataGoa vastaan ​​ja niin edelleen yhdeksän kierroksen ajan. Mutta sekään ei johtanut KataGon voittamattomaan versioon. Hyökkääjät jatkoivat haavoittuvuuksien löytämistä, ja viimeisin hyökkäys voitti KataGon 81 % ajasta.

Kolmantena puolustusstrategiana tutkijat kouluttivat uuden Go-playing AI -järjestelmän tyhjästä. KataGo perustuu laskennalliseen malliin, joka tunnetaan nimellä konvoluutiohermoverkko (CNN). Tutkijat epäilivät, että CNN:t voisivat keskittyä liikaa paikallisiin yksityiskohtiin ja jättää huomiotta globaaleja malleja. Joten he rakensivat Go-soittimen vaihtoehdolla hermoverkko kutsutaan näkömuuntajaksi (ViT). Mutta heidän vastustajabottinsa löysi uuden hyökkäyksen, joka auttoi sitä voittamaan ViT-järjestelmää vastaan ​​78 % ajasta.

Heikot vastustajat

Kaikissa näissä tapauksissa kilpailevat robotit - vaikka kykenivät voittamaan KataGon ja muut johtavat Go-playing-järjestelmät - koulutettiin löytämään piilotettuja haavoittuvuuksia muissa tekoälyissä sen sijaan, että he olisivat monipuolisia strategeja. "Vastajat ovat edelleen melko heikkoja - voitimme heidät melko helposti", Gleave sanoo.

Ja koska ihmiset voivat käyttää vihollisbottien taktiikkaa voittaakseen johtavat Go AI:t, onko silti järkevää kutsua näitä järjestelmiä yli-inhimillisiksi? "Se on hieno kysymys, jonka kanssa olen ehdottomasti paininut", Gleave sanoo. "Aloimme sanoa: "tyypillisesti yli-inhimillinen". David Wu, tietotekniikan tutkija New Yorkista, joka kehitti KataGon ensimmäisenä, sanoo, että vahvat Go-AI:t ovat "keskimäärin yli-inhimillisiä", mutta eivät "pahimmissa tapauksissa".

Gleave sanoo, että löydöillä voi olla kauaskantoisia vaikutuksia tekoälyjärjestelmiin, mukaan lukien suuria kielimalleja, jotka ovat ChatGPT:n kaltaisten chatbottien taustalla. "Tekoälyn tärkein ominaisuus on, että näitä haavoittuvuuksia on vaikea korjata", Gleave sanoo. "Jos emme pysty ratkaisemaan ongelmaa Goon kaltaisella yksinkertaisella alueella, näyttää olevan vähän mahdollisuuksia korjata samanlaisia ​​ongelmia, kuten ChatGPT:n jailbreakit lähitulevaisuudessa."

Mitä tulokset tarkoittavat mahdollisuudelle luoda tekoäly, joka ylittää kokonaisvaltaisesti ihmisen kyvyt, on vähemmän selvää, Zhang sanoo. "Vaikka pinnalla tämä viittaa siihen, että ihmiset voivat säilyttää tärkeitä kognitiivisia etuja tekoälyyn verrattuna jonkin aikaa", hän sanoo, "Uskon, että tärkein oivallus on, että Emme vielä täysin ymmärrä tekoälyjärjestelmiä, joita rakennamme tänään.”