Blev dit papir brugt til at træne en AI -model? Mest sandsynligt

Erfahren Sie mehr über die Auswirkungen des Verkaufs von Forschungsarbeiten an Technologieunternehmen zur Schulung von KI-Modellen und die Fragen, die sich daraus ergeben. Lesen Sie, wie akademische Verlage Daten an Technologiefirmen verkaufen und welche Bedenken dies bei Forschern hervorruft.
Find ud af mere om virkningerne af at sælge forskning til teknologiselskaber til uddannelse af AI -modeller og de spørgsmål, der opstår. Læs, hvordan akademiske udgivere sælger data til teknologiselskaber, og hvad der vedrører dette forårsager forskere. (Symbolbild/natur.wiki)

Blev dit papir brugt til at træne en AI -model? Mest sandsynligt

Videnskabsfirmaer sælger adgang til forskningsarbejde til teknologiselskaber for at træne kunstige intelligens (AI) modeller. Nogle forskere reagerede med forfærdelse på sådanne tilbud, der finder sted uden forfatterens konsultation. Tendensen rejser spørgsmål om brugen af ​​offentliggjort og undertiden ophavsretligt beskyttet arbejde for at uddanne det voksende antal AI -chatbots i udviklingen.

Eksperter siger, at et forskningsdokument, der endnu ikke er blevet brugt til at træne en stor stemmemodel, sandsynligvis vil blive brugt snart. Forskere udforsker tekniske muligheder for forfattere til at afgøre, om deres indhold bruges.

Sidste måned blev det annonceret, at den britiske videnskabsudgiver Taylor & Francis, med base i Milton Park, Storbritannien, underskrev en ti millioner dollar -aftale med Microsoft, som gør det muligt for det amerikanske teknologiselskab at få adgang til udgiverens data for at forbedre sine AI -systemer. I juni viste en investoropdatering, at den amerikanske udgiver Wiley tjente 23 millioner dollars ved at få lov til at uddanne generative AI -modeller på sit indhold.

Alt, hvad der er tilgængeligt online--om der er i et open access-depot eller ikke har allerede været "ret" fodret i en stor stemmemodel, siger Lucy Lu Wang, en AI-forsker ved University of Washington i Seattle. "Og hvis et papir allerede er blevet brugt som træningsdata i en model, er der ingen måde at fjerne dette papir efter at have trænet modellen," tilføjer hun.

Massive dataregistreringer

llms er trænet på enorme mængder data, der ofte skummet fra internettet. De bestemmer mønstre mellem de ofte milliarder af stemmesektioner i træningsdataene, så -kaldte tokens, som gør det muligt for dem at generere tekster med fantastisk væske.

Generative AI -modeller er afhængige af at tage mønstre fra disse datamasser for at udsende tekster, billeder eller computerkode. Videnskabeligt arbejde er værdifuldt for LLM -udviklere på grund af deres længde og "høj informationstæthed", siger Stefan Baack, der udfører analysen af ​​AI -træningsdatasæt på Mozilla Foundation i San Francisco, Californien.

Tendensen til at købe dataregistreringer med høj kvalitet vokser. I år har Financial Times sit materiale til Chatgpt-Developer Openai tilbydes i en lukrativ aftale såvel som online forum Reddit til Google. Og da videnskabelige udgivere sandsynligvis betragter alternativet som en uautoriseret skimmer af deres arbejde, "tror jeg, at flere sådanne tilbud er nært forestående," siger Wang.

Hemmeligheder om Information

Nogle AI -udviklere, såsom det store kunstige efterretningsnetværk, holder bevidst deres dataregistre åbne, men mange virksomheder, der udvikler generative AI -modeller, har holdt en stor del af deres træningsdata -hemmelighed, siger Baack. ”Vi har ingen idé om, hvad det er,” siger han. Open source -lagre som Arxiv og den videnskabelige database PubMed betragtes som "meget populære" kilder, selvom paywalled journalartikler sandsynligvis vil blive skummet af store teknologiselskaber gratis. ”Du er altid på jagt efter sådan information,” tilføjer han.

Det er vanskeligt at bevise, at en LLM har brugt et bestemt papir, siger Yves-Alexandre de Montjoye, en computerforsker ved Imperial College London. En mulighed er at konfrontere modellen med en usædvanlig sætning fra en tekst og kontrollere, om output matcher de næste ord i originalen. Hvis dette er tilfældet, er dette et godt tegn på, at papiret er inkluderet i træningssættet. Hvis ikke, betyder det ikke, at papiret ikke er blevet brugt - ikke mindst fordi udviklere kan programmere LLM for at filtrere svarene for at sikre, at de ikke matcher træningsdataene for tæt. ”Det kræver meget at få det til at fungere,” siger han.

En anden procedure til kontrol af, om data er inkluderet i et træningsdatasæt kaldes et medlemskabsangreb. Dette er baseret på ideen om, at en model er sikker på dens udgave, når den ser noget, som den har set før. De Montjoyes -teamet har udviklet en version af det kaldet Copyright Trap for LLMS.

For at sætte fælden genererer teamet plausible, men nonsensiske sætninger og huderer i et værk, for eksempel som en hvid tekst på en hvid baggrund eller i et felt, der vises på et websted som en nulbredde. Hvis en LLM er "overrasket" af et ubrugt kontrolsæt -et mål for dens forvirring -mere end sætningen skjult i teksten, "de statistiske beviser for, at fælderne er blevet set på forhånd," siger han.

Copyright -spørgsmål

Selvom det var muligt at bevise, at en LLM blev trænet i en bestemt tekst, er det ikke klart, hvad der vil ske dernæst. Udgivere hævder, at brugen af ​​ophavsretligt beskyttede tekster i træning uden licens betragtes som en skade. Men en juridisk tæller -argument siger, at LLM'er ikke kopierer - du udtrækker informationsindhold fra de træningsdata, der er knust og bruger din lærte viden til at generere ny tekst.

Eventuelt en retssag kan hjælpe med at afklare dette. I en løbende amerikansk konsulentlov, der kunne være banebrydende, The New York Times Microsoft og udvikleren af ​​Chatgpt, Openai, i San Francisco, Californien. Avisen beskylder virksomhederne for at bruge deres journalistiske indhold uden tilladelse til at træne deres modeller.

Mange akademikere er glade, når deres arbejde er inkluderet i LLMS -træningsdata - især hvis modellerne bliver mere præcise. "Personligt har jeg ikke noget imod, om en chatbot skriver i min stil," siger Baack. Men han indrømmer, at hans erhverv ikke er truet af udgifterne til LLMS, som for andre erhverv, såsom kunstnere og forfattere.

Individuelle videnskabelige forfattere har i øjeblikket ringe indflydelse, hvis udgiveren af ​​dit papir sælger adgang til dine ophavsretligt beskyttede værker. Der er ingen etablerede midler for offentligt tilgængelige artikler til at tildele en kredit eller vide, om der er brugt en tekst.

Nogle forskere, inklusive de Montjoye, er frustrerede. "Vi vil have LLM'er, men vi vil stadig have noget, der er fair, og jeg tror, ​​at vi endnu ikke har opfundet, hvordan det ser ud," siger han.