Je li vaš rad bio korišten za treniranje AI modela? Najvjerojatnije

Erfahren Sie mehr über die Auswirkungen des Verkaufs von Forschungsarbeiten an Technologieunternehmen zur Schulung von KI-Modellen und die Fragen, die sich daraus ergeben. Lesen Sie, wie akademische Verlage Daten an Technologiefirmen verkaufen und welche Bedenken dies bei Forschern hervorruft.
Saznajte više o učincima prodaje istraživanja tehnološkim tvrtkama za obuku AI modela i pitanja koja se postavljaju. Pročitajte kako akademski izdavači prodaju podatke tehnološkim tvrtkama i što se tiče istraživača. (Symbolbild/natur.wiki)

Je li vaš rad bio korišten za treniranje AI modela? Najvjerojatnije

Znanstveni izdavači prodaju pristup istraživačkom radu tehnološkim tvrtkama kako bi obučili modele umjetne inteligencije (AI). Neki su istraživači reagirali s užasom na takve ugovore koji se odvijaju bez savjetovanja autora. Trend postavlja pitanja o korištenju objavljenog i ponekad zaštićenog autorskim pravima na osposobljavanju sve većeg broja AI chatbota u razvoju.

Stručnjaci kažu da će se uskoro koristiti istraživački rad koji se još nije upotrijebio za obuku velikog glasovnog modela. Istraživači istražuju tehničke mogućnosti autora da utvrde koristi li njihov sadržaj.

Prošlog mjeseca objavljeno je da je britanski znanstveni izdavač Taylor & Francis, sa sjedištem u Milton Parku u Velikoj Britaniji, potpisao ugovor od deset milijuna američkih dolara s Microsoftom, što omogućava američkoj tehnološkoj kompaniji pristup podacima izdavača kako bi poboljšao svoje AI sustave. U lipnju, ažuriranje investitora pokazalo je da je američki izdavač Wiley zaradio 23 milijuna dolara dopušteno da obuči generativne AI modele na svom sadržaju.

Sve što je dostupno na mreži-bilo u spremištu otvorenog pristupa ili nije već "prilično" ubijeno u veliki glasovni model, kaže Lucy Lu Wang, istraživačica AI sa Sveučilišta u Washingtonu u Seattleu. "A ako je rad već korišten kao podaci o treningu u modelu, ne postoji način da se ovaj rad ukloni nakon treninga modela", dodaje ona.

Masivni zapisi podataka

LLM -ovi su osposobljeni za ogromne količine podataka koji se često preskaču s interneta. Oni određuju obrasce između često milijardi glasovnih odjeljaka u podacima o treningu, tako da su označeni tokeni, koji im omogućuju stvaranje tekstova s ​​nevjerojatnom tekućinom.

Generativni AI modeli oslanjaju se na uzimanje obrazaca iz tih masa podataka kako bi se izlazili tekstovi, slike ili računalni kod. Znanstveni rad vrijedan je za programere LLM -a zbog njihove dužine i "visoke gustoće informacija", kaže Stefan Baack, koji u Kaliforniji u San Franciscu u Kaliforniji izvršava analizu AI trening skupa za obuku.

Raste tendencija kupovine podataka visoke kvalitete. Ove godine Financial Times ima svoj materijal na Chatgpt-Developer OpenAi Ponuđen u unosnom ugovoru, kao i na mrežnom forumu Reddit do Googlea. A budući da znanstveni izdavači vjerojatno alternativu smatraju neovlaštenim skimmerom svog rada, "mislim da je više takvih ugovora neposredna", kaže Wang.

Tajne informacija

Neki AI programeri, poput mreže za umjetnu inteligenciju velikih razmjera, namjerno drže svoje podatke o podacima otvorenim, ali mnoge tvrtke koje razvijaju generativne AI modele čuvale su veliki dio svojih podataka o usavršavanju, kaže Baack. "Nemamo pojma što je to", kaže on. Otvoreni izvori, kao što su ARXIV i znanstvena baza podataka PubMed, smatraju se "vrlo popularnim" izvorima, iako će članke s platnim časopisima vjerojatno besplatno preskočiti velike tehnološke kompanije. "Uvijek ste u lovu na takve informacije", dodaje.

Teško je dokazati da je LLM koristio određeni rad, kaže Yves-Alexandre de Montjoye, informatičar iz Imperial College Londona. Jedna je mogućnost suočiti se s modelom s neobičnom rečenom iz teksta i provjeriti odgovara li izlaz sljedeće riječi u originalu. Ako je to slučaj, ovo je dobar znak da je rad uključen u set za trening. Ako ne, to ne znači da rad nije korišten - ne samo zato što programeri mogu programeri programirati LLM kako bi filtrirali odgovore kako bi osigurali da oni ne odgovaraju podacima o treningu. "Potrebno je puno da to uspije", kaže on.

Drugi postupak provjere jesu li podaci uključeni u skup podataka o treningu naziva se napadom zaključivanja o članstvu. To se temelji na ideji da je model uvjeren u svoje izdanje kada vidi nešto što je prije vidio. De Montjoyes tim razvio je njegovu verziju koja se zove Copyright Trap za LLMS.

Za stavljanje zamke, tim generira uvjerljive, ali besmislene rečenice i skriva se u djelu, na primjer kao bijeli tekst na bijeloj pozadini ili u polju koje je prikazano na web mjestu kao nula širina. Ako je LLM "iznenađen" neiskorištenim kontrolnim setom -mjera njegove zbrke -više od rečenice skrivene u tekstu, "statistički dokazi da su zamke prethodno viđene", kaže on.

Pitanja o autorskim pravima

Čak i ako je bilo moguće dokazati da je LLM obučen na određeni tekst, nije jasno što će se dogoditi sljedeće. Izdavači tvrde da se upotreba tekstova zaštićenih autorskim pravima u obuci bez licenciranja smatra ozljedom. No, pravni kontra -argument kaže da LLMS ne kopira - izvadite sadržaj informacija iz podataka o treningu koji se sruše i koristite vaše naučeno znanje za generiranje novog teksta.

Možda bi pravni postupak mogao pomoći u razjašnjenju. U tijeku američkog zakona o savjetovanju koji bi mogao biti pionir, New York Times Microsoft i programer Chatgpt, Openai, u San Franciscu u Kaliforniji. Novine optužuju tvrtke da koriste svoj novinarski sadržaj bez dozvole za obuku svojih modela.

Mnogi su akademici sretni kada je njihov rad uključen u podatke o obuci LLS -a - posebno ako modeli postanu precizniji. "Osobno mi ne smeta ako chatbot piše u mom stilu", kaže Baack. Ali priznaje da njegovu profesiju ne prijeti izdatkom LLMS -a, poput onih drugih profesija, poput umjetnika i pisaca.

Pojedinačni znanstveni autori trenutno imaju malo utjecaja ako izdavač vašeg rada prodaje pristup vašim djelima zaštićenim autorskim pravima. Ne postoje utvrđena sredstva za javno dostupne članke koji bi dodijelili kredit ili znali je li tekst korišten.

Neki su istraživači, uključujući de Montjoye, frustrirani. "Želimo LLMS, ali još uvijek želimo nešto što je fer, a mislim da još nismo izmislili kako to izgleda", kaže on.