Je bil vaš papir uporabljen za treniranje modela AI? Najverjetneje

Je bil vaš papir uporabljen za treniranje modela AI? Najverjetneje
Znanstveni založniki prodajajo dostop do raziskovalnega dela tehnološkim podjetjem, da bi usposobili modele umetne inteligence (AI). Nekateri raziskovalci so se z zgražanjem odzvali na takšne posle, ki se odvijajo brez avtorjevega posvetovanja. Trend sproža vprašanja o uporabi objavljenega in včasih avtorskega dela za usposabljanje vse večjega števila AI chatbotov v razvoju.
Strokovnjaki pravijo, da bo kmalu uporabljen raziskovalni članek, ki še ni bil uporabljen za treniranje velikega glasovnega modela. Raziskovalci raziskujejo tehnične priložnosti za avtorje, da ugotovijo, ali se njihova vsebina uporablja.
Prejšnji mesec je bilo objavljeno, da je britanski založnik Science Taylor & Francis s sedežem v Milton Parku v Veliki Britaniji z Microsoftom podpisal deset milijonov ameriških dolarjev, ki ameriškemu tehnološkemu podjetju omogoča dostop do podatkov založnika za izboljšanje svojih sistemov AI. Junija je posodobitev vlagateljev pokazala, da je ameriški založnik Wiley zaslužil 23 milijonov dolarjev, tako da je omogočil usposabljanje generativnih modelov AI na svoji vsebini.Vse, kar je na voljo na spletu-bodisi v skladišču z odprtim dostopom ali ne, že so "precej" dodeljeno v velik glasovni model, pravi Lucy Lu Wang, raziskovalka AI na Univerzi v Washingtonu v Seattlu. "In če je bil papir že uporabljen kot podatki o usposabljanju v modelu, po usposabljanju modela ni mogoče odstraniti tega papirja," doda.
Masivni zapisi podatkov
LLM so usposobljeni za ogromne količine podatkov, ki so pogosto poskočeni iz interneta. V podatkih o usposabljanju določajo vzorce med pogosto milijardami glasovnih odsekov, tako imenovanih žetonov, ki jim omogočajo ustvarjanje besedil z neverjetno tekočino.
Generativni modeli AI se zanašajo na odvzemanje vzorcev iz teh podatkovnih mas, da bi izdajali besedila, slike ali računalniško kodo. Znanstveno delo je za razvijalce LLM dragoceno zaradi svoje dolžine in "visoke gostote informacij", pravi Stefan Baack, ki izvaja analizo naborov podatkov o usposabljanju AI v fundaciji Mozilla v San Franciscu v Kaliforniji.
Nagnjenost k nakupu zapisov o visoki kakovosti raste. This year the Financial Times has its material to the chatgpt-developer openAi Ponujen v donosnem dogovoru, pa tudi spletni forum Reddit do Googla. In ker znanstveni založniki verjetno menijo, da je alternativa kot nepooblaščen posnetek svojega dela, "mislim, da je več takšnih poslov neizogibno," pravi Wang.
Skrivnosti informacij
Nekateri razvijalci AI, na primer obsežno mrežo umetne inteligence, namerno ohranjajo svoje zapise podatkov odprte, vendar so številna podjetja, ki razvijajo generativne modele AI, ohranila velik del svoje skrivnosti podatkov o usposabljanju, pravi Baack. "Nimamo pojma, kaj je," pravi. Odprtokodne repozitorije, kot sta ARXIV in znanstvena baza podatkov PubMed, veljajo za "zelo priljubljene" vire, čeprav bodo velike tehnološke družbe verjetno brezplačno posnele članke iz plačljivega revije. "Vedno ste na lovu na takšne informacije," doda.
Težko je dokazati, da je LLM uporabil določen papir, pravi Yves-Alexandre de Montjoye, računalniški znanstvenik na Imperial College London. Ena od možnosti je, da se model soočimo z nenavadnim stavkom iz besedila in preverite, ali se izhod ujema z naslednjimi besedami v izvirniku. V tem primeru je to dober znak, da je papir vključen v vadbeni nabor. Če ne, to ne pomeni, da papir ni bil uporabljen - nenazadnje tudi zato, ker lahko razvijalci programirajo LLM za filtriranje odgovorov, da se zagotovi, da se ne ujemajo s podatki o usposabljanju. "Potrebno je veliko, da deluje," pravi.
Drug postopek za preverjanje, ali so podatki vključeni v nabor podatkov o usposabljanju, se imenuje napad na sklepanje o članstvu. To temelji na ideji, da je model prepričan v svojo izdajo, ko vidi nekaj, kar je videl že prej. De Montjoyes Team je razvila različico IT, imenovano Copyright Trap za LLM.
Če postavimo past, ekipa ustvari verodostojne, a nesmiselne stavke in se skriva v delu, na primer kot belo besedilo na belem ozadju ali v polju, ki je na spletnem mestu prikazano kot ničelna širina. Če je LLM "presenečen" z neuporabljenim kontrolnim nizom -merilo njene zmede -več kot stavek, skrit v besedilu, "statistični dokazi, da so bile pasti že prej vidne," pravi.
Vprašanja o avtorskih pravicah
Tudi če bi bilo mogoče dokazati, da je bil LLM usposobljen za določeno besedilo, ni jasno, kaj se bo zgodilo. Založniki trdijo, da uporaba avtorskih besedil na usposabljanju brez licenciranja velja za poškodbo. Toda pravni števec - Argument pravi, da LLMS ne kopira - izvlečete vsebino informacij iz podatkov o usposabljanju, ki so zdrobljeni, in uporabite svoje naučeno znanje za ustvarjanje novega besedila.
Mogoče bi lahko to pomagalo pri tem, da bi to pomagalo razjasniti. V tekočem ameriškem svetovalnem zakonu, ki bi lahko bil pionirski, The New York Times Microsoft in razvijalec Chatgpt, OpenAI, v San Franciscu v Kaliforniji. Časopis obtožuje podjetja, da uporabljajo svojo novinarsko vsebino brez dovoljenja za usposabljanje svojih modelov.
Številni akademiki so srečni, ko je njihovo delo vključeno v podatke o usposabljanju LLMS - še posebej, če modeli postanejo natančnejši. "Osebno ne motim, če v mojem slogu piše chatbot," pravi Baack. Toda priznava, da njegovega poklica ne ogrožajo izdatki LLM -jev, kot so drugi poklici, kot so umetniki in pisatelji.
Posamezni znanstveni avtorji imajo trenutno malo vpliva, če založnik vašega prispevka prodaja dostop do vaših avtorskih del. Za javno dostopne članke ni uveljavljenih sredstev za dodelitev posojila ali vedeti, ali je bilo uporabljeno besedilo.
Nekateri raziskovalci, vključno z De Montjoye, so frustrirani. "Želimo LLM, vendar si še vedno želimo nekaj poštenega in mislim, da še nismo izumili, kako izgleda," pravi.