Ble papiret ditt brukt til å trene en AI -modell? Mest sannsynlig

Ble papiret ditt brukt til å trene en AI -modell? Mest sannsynlig
Vitenskapelige utgivere selger tilgang til forskningsarbeid til teknologiselskaper for å trene kunstig intelligens (AI) modeller. Noen forskere reagerte med forferdelse på slike avtaler som finner sted uten forfatterenes konsultasjon. Trenden reiser spørsmål om bruk av publisert og noen ganger opphavsrettsbeskyttet arbeid for å trene det økende antallet AI -chatbots i utvikling.
Eksperter sier at et forskningsoppgave som ennå ikke er brukt til å trene en stor stemmemodell, sannsynligvis vil bli brukt snart. Forskere utforsker tekniske muligheter for forfattere til å avgjøre om innholdet deres brukes.
I forrige måned ble det kunngjort at det britiske vitenskapsforlaget Taylor & Francis, med base i Milton Park, Storbritannia, signerte en ti millioner amerikansk dollaravtale med Microsoft, som gjør det mulig for det amerikanske teknologiselskapet å få tilgang til utgiverens data for å forbedre AI -systemene. I juni viste en investoroppdatering at det amerikanske utgiveren Wiley tjente 23 millioner dollar ved å få lov til å trene generative AI -modeller på innholdet.Alt som er tilgjengelig på nettet-om i et open access-depot eller ikke har allerede blitt "ganske" matet inn i en stor stemmemodell, sier Lucy Lu Wang, en AI-forsker ved University of Washington i Seattle. "Og hvis et papir allerede har blitt brukt som treningsdata i en modell, er det ingen måte å fjerne dette papiret etter å ha trent modellen," legger hun til.
Massive dataregistreringer
llms er opplært på enorme mengder data som ofte blir skummet fra internett. De bestemmer mønstre mellom de ofte milliarder av stemmeseksjoner i treningsdataene, så kalt symboler, som gjør dem i stand til å generere tekster med fantastisk væske.
Generative AI -modeller er avhengige av å ta mønstre fra disse datamassene for å sende ut tekster, bilder eller datakode. Vitenskapelig arbeid er verdifullt for LLM -utviklere på grunn av deres lengde og "høy informasjonstetthet", sier Stefan Baack, som utfører analysen av AI -treningsdatasett ved Mozilla Foundation i San Francisco, California.
Tendensen til å kjøpe dataregistreringer av høy kvalitet vokser. I år har Financial Times sitt materiale til Chatgpt-utvikler openai Tilbudt i en lukrativ avtale, så vel som online forumet Reddit til Google. Og siden vitenskapelige utgivere sannsynligvis anser alternativet som en uautorisert skimmer av arbeidet sitt, "tror jeg at flere slike avtaler er overhengende," sier Wang.
informasjonshemmeligheter
Noen AI -utviklere, for eksempel det kunstige intelligensnettverket i stor skala, holder bevisst sine dataregistreringer åpne, men mange selskaper som utvikler generative AI -modeller har holdt en stor del av treningsdatahemmelighetene sine, sier Baack. "Vi aner ikke hva det er," sier han. Open source -depoter som ARXIV og den vitenskapelige databasen PubMed regnes som "veldig populære" kilder, selv om lønningsartikler sannsynligvis vil bli skummet av store teknologiselskaper gratis. "Du er alltid på jakt etter slik informasjon," legger han til.
Det er vanskelig å bevise at en LLM har brukt et bestemt papir, sier Yves-Alexandre de Montoye, en dataforsker ved Imperial College London. En mulighet er å konfrontere modellen med en uvanlig setning fra en tekst og å sjekke om utdataene samsvarer med de neste ordene i originalen. Hvis dette er tilfelle, er dette et godt tegn på at papiret er inkludert i treningssettet. Hvis ikke, betyr ikke dette at papiret ikke har blitt brukt - ikke minst fordi utviklere kan programmere LLM for å filtrere svarene for å sikre at de ikke samsvarer med treningsdataene for nøye. "Det krever mye for å få det til å fungere," sier han.
En annen prosedyre for å sjekke om data er inkludert i et treningsdatasett kalles et medlemsangrep for medlemskap. Dette er basert på ideen om at en modell er trygg på utgaven sin når den ser noe den har sett før. De Montjoyes -teamet har utviklet en versjon av det kalt Copyright Trap for LLMS.
For å sette fellen genererer teamet plausible, men nonsensiske setninger og skjuler seg i et verk, for eksempel som en hvit tekst på hvit bakgrunn eller i et felt som vises på et nettsted som en nullbredde. Hvis en LLM blir "overrasket" av et ubrukt kontrollsett -et mål på dets forvirring -mer enn setningen som er skjult i teksten, "" det statistiske beviset på at fellene har blitt sett på forhånd, "sier han.
spørsmål om opphavsrett
Selv om det var mulig å bevise at en LLM ble trent på en bestemt tekst, er det ikke klart hva som vil skje videre. Utgivere hevder at bruk av opphavsrettsbeskyttede tekster i trening uten lisensiering anses som en skade. Men en lovlig motargument sier at LLMS ikke kopierer - du henter ut informasjonsinnhold fra treningsdataene som er knust og bruker din lærte kunnskap til å generere ny tekst.
Muligens en rettslige forhandlinger kan bidra til å avklare dette. I en pågående amerikansk konsulentlov som kan være banebrytende, The New York Times Microsoft og utvikleren av Chatgpt, Openai, i San Francisco, California. Avisen beskylder selskapene for å bruke sitt journalistiske innhold uten tillatelse til å trene modellene sine.
Mange akademikere er glade når arbeidet deres er inkludert i LLMS -treningsdata - spesielt hvis modellene blir mer presise. "Personlig har jeg ikke noe imot om en chatbot skriver i min stil," sier Baack. Men han innrømmer at yrket hans ikke er truet av utgiftene til LLM -ene, som andre yrker, som kunstnere og forfattere.
Individuelle vitenskapelige forfattere har for tiden liten innflytelse hvis utgiveren av papiret ditt selger tilgang til dine opphavsrettsbeskyttede verk. Det er ingen etablerte midler for offentlig tilgjengelige artikler for å tilordne en kreditt eller vite om en tekst er blitt brukt.
Noen forskere, inkludert De Montojee, er frustrerte. "Vi vil ha LLM -er, men vi vil fortsatt ha noe som er rettferdig, og jeg tror vi ennå ikke har oppfunnet hvordan det ser ut," sier han.