Käytettiinkö paperiasi AI -mallin kouluttamiseen? Todennäköisesti

Erfahren Sie mehr über die Auswirkungen des Verkaufs von Forschungsarbeiten an Technologieunternehmen zur Schulung von KI-Modellen und die Fragen, die sich daraus ergeben. Lesen Sie, wie akademische Verlage Daten an Technologiefirmen verkaufen und welche Bedenken dies bei Forschern hervorruft.
Lisätietoja tutkimuksen myynnin vaikutuksista teknologiayrityksille AI -mallien kouluttamiseen ja esiin nouseviin kysymyksiin. Lue, kuinka akateemiset kustantajat myyvät tietoja teknologiayrityksille ja mikä tämä aiheuttaa tutkijoita. (Symbolbild/natur.wiki)

Käytettiinkö paperiasi AI -mallin kouluttamiseen? Todennäköisesti

Tieteen kustantajat myyvät pääsyn tutkimustyöhön teknologiayrityksille tekoälyn (AI) mallien kouluttamiseksi. Jotkut tutkijat reagoivat kauhistuneena tällaisiin sopimuksiin, jotka tapahtuvat ilman kirjoittajien kuulemista. Suuntaus herättää kysymyksiä julkaistun ja joskus tekijänoikeuksien alaisen työn käytöstä kouluttaa kasvava määrä AI -chatbotteja kehityksessä.

asiantuntijat sanovat, että tutkimuspaperia, jota ei ole vielä käytetty suuren äänimallin kouluttamiseen, käytetään todennäköisesti pian. Tutkijat tutkivat kirjoittajien teknisiä mahdollisuuksia selvittää, käytetäänkö niiden sisältöä.

Viime kuussa ilmoitettiin, että Britannian tieteen kustantaja Taylor & Francis, joka sijaitsee Milton Parkissa, Iso -Britanniassa, allekirjoitti kymmenen miljoonan Yhdysvaltain dollarin sopimuksen Microsoftin kanssa, jonka avulla yhdysvaltalainen teknologiayritys pääsee kustantajan tietoihin parantaakseen AI -järjestelmiä. Sijoittajapäivitys osoitti kesäkuussa, että Yhdysvaltain kustantaja Wiley ansaitsi 23 miljoonaa dollaria sallimalla kouluttaa generatiivisia AI -malleja sisällöstä.

Kaikki, mitä on saatavana verkossa-olipa se avoimen pääsyn arkistossa tai ei ole jo "melko" syötetty suureen äänimalliin, sanoo Seattlen Washingtonin yliopiston AI-tutkija Lucy Lu Wang. "Ja jos paperia on jo käytetty koulutustietoina mallissa, tätä paperia ei voida poistaa mallin koulutuksen jälkeen", hän lisää.

Massiiviset datatiedot

LLM: t koulutetaan valtaviin määriin tietoja, jotka usein rasvataan Internetistä. Ne määrittävät harjoitustietojen usein miljardin ääniosan väliset kuviot, joten ns. Tokenit, jotka antavat heille mahdollisuuden luoda tekstejä hämmästyttävällä nesteellä.

generatiiviset AI -mallit luottavat kuvioiden ottamiseen näistä tieto massoista tekstien, kuvien tai tietokonekoodin tulostamiseksi. Tieteellinen työ on arvokasta LLM -kehittäjille niiden pituuden ja "korkean tietotiheyden" vuoksi, Stefan Baack sanoo, joka suorittaa AI -koulutustietojoukkojen analyysin Mozilla -säätiössä San Franciscossa, Kaliforniassa.

taipumus ostaa korkealaatuisia tietorekistereitä kasvaa. Tänä vuonna Financial Times on materiaali Chatgpt-Developer Openai Tarjotaan tuottoisassa kaupassa, samoin kuin online-foorumin Reddit Googlelle. Ja koska tieteelliset kustantajat todennäköisesti pitävät vaihtoehtoa heidän työnsä luvattomana skimmerinä ", mielestäni enemmän tällaisia ​​sopimuksia on välitön", Wang sanoo.

Tietojen salaisuudet

Jotkut AI -kehittäjät, kuten laajamittainen tekoälyverkko, pitävät tietorekisterinsä tarkoituksella auki, mutta monet generatiiviset AI -malleja kehittävät yritykset ovat pitäneet suuren osan koulutustietostaan, Baack sanoo. "Meillä ei ole aavistustakaan, mikä se on", hän sanoo. Avoimen lähdekoodin arkistoja, kuten ARXIV ja Scientific Database PubMedia, pidetään "erittäin suosituina" lähteinä, vaikka suuret teknologiayritykset todennäköisesti rasvattavat palkkalausetut lehden artikkelit ilmaiseksi. "Olet aina metsästämässä tällaisia ​​tietoja", hän lisää.

On vaikea todistaa, että LLM on käyttänyt tiettyä artikkelia, sanoo Lontoon Imperial College -opistossa oleva tietotekniikka Yves-Alexandre de Montjoyee. Yksi mahdollisuus on kohdata malli epätavallisella lauseella tekstistä ja tarkistaa, vastaako lähtö alkuperäisen seuraavia sanoja. Jos näin on, tämä on hyvä merkki siitä, että paperi sisältyy harjoitusjoukkoon. Jos ei, tämä ei tarkoita, että paperia ei ole käytetty - etenkin siksi, että kehittäjät voivat ohjelmoida LLM: n suodattamaan vastaukset varmistaakseen, että ne eivät vastaa harjoitustietoja liian tarkasti. "Se vie paljon saadakseen sen toimimaan", hän sanoo.

Toista menettelyä tarkistaa, onko tietoja sisällytettäväksi koulutustietojoukkoon, kutsutaan jäsenten päätelmähyökkäykseksi. Tämä perustuu ajatukseen, että malli on varma painosestaan, kun se näkee jotain, mitä se on aiemmin nähnyt. De Montjoyes -tiimi on kehittänyt siitä version, nimeltään Copyright Trap for LLMS.

Ansaan laittamiseksi joukkue tuottaa uskottavia, mutta järjettömiä lauseita ja piiloutuu teokseen, esimerkiksi valkoisena tekstinä valkoisella taustalla tai kentällä, joka näkyy verkkosivustolla nollaleveytenä. Jos LLM on "yllättynyt" käyttämätön ohjausjoukko -sen sekavuuden mitta -enemmän kuin tekstissä piilotettu lause, "tilastolliset todisteet siitä, että ansoja on nähty etukäteen", hän sanoo.

Tekijänoikeuskysymykset

Vaikka olisi mahdollista todistaa, että LLM koulutettiin tietyllä tekstillä, ei ole selvää, mitä seuraavaksi tapahtuu. Kustantajat väittävät, että tekijänoikeuksien alaisia ​​tekstejä koulutuksessa ilman lisensointia pidetään vammana. Mutta laillinen vasta -argumentti sanoo, että LLMS ei kopioi - purkaa tietosisältöä murskattuista koulutustiedoista ja käyttää opittua tietoa uuden tekstin luomiseen.

Mahdollisesti oikeudenkäynti voisi auttaa selventämään tätä. Meneillään olevassa Yhdysvaltain konsultointilakissa, joka voisi olla uraauurtavaa, New York Times Microsoft ja ChatgPT: n kehittäjä Openai, San Franciscossa, Kaliforniassa. Sanomalehti syyttää yrityksiä journalistisen sisällön käytöstä ilman lupaa heidän mallinsa kouluttamiseen.

Monet tutkijat ovat onnellisia, kun heidän työnsä sisällytetään LLMS -koulutustietoihin - varsinkin jos mallit tarkempia. "Henkilökohtaisesti en välitä, jos chatbot kirjoittaa tyyliini", Baack sanoo. Mutta hän myöntää, että hänen ammatinsa ei uhkaa LLM: n menoja, kuten muiden ammattien, kuten taiteilijoiden ja kirjoittajien, menot. ; Julkisesti saatavilla oleville artikkeleille ei ole vakiintuneita keinoja luoton antamiseksi tai tietää, onko tekstiä käytetty.

Jotkut tutkijat, mukaan lukien de Montjoye, ovat turhautuneita. "Haluamme LLMS: ää, mutta haluamme silti jotain reilua, ja mielestäni emme ole vielä keksineet miltä se näyttää", hän sanoo.