Ar jūsų popierius buvo naudojamas mokyti AI modelį? Greičiausiai

Erfahren Sie mehr über die Auswirkungen des Verkaufs von Forschungsarbeiten an Technologieunternehmen zur Schulung von KI-Modellen und die Fragen, die sich daraus ergeben. Lesen Sie, wie akademische Verlage Daten an Technologiefirmen verkaufen und welche Bedenken dies bei Forschern hervorruft.
Sužinokite daugiau apie tyrimų pardavimo technologijų kompanijoms poveikį mokant AI modelius ir kylančius klausimus. Perskaitykite, kaip akademiniai leidėjai parduoda duomenis technologijų įmonėms ir dėl ko tai susiję su tyrėjais. (Symbolbild/natur.wiki)

Ar jūsų popierius buvo naudojamas mokyti AI modelį? Greičiausiai

<šaltinis type = "vaizdas/webp" srcset = "https://media.nature.com/lw767/magazine-assets/d41586-02599-9/d41586-02599-9_27461422.jpg? https://media.nature.com/lw319/magazine-assets/d41586-0259-9/d41586-02599-9_274614222.jpg?as=WEBP 319W "Sizes =" (Max-Width) 319px, (Min-Width: 1023px).

Mokslo leidėjai parduoda prieigą prie tyrimų darbų technologijų įmonėms, kad galėtų mokyti dirbtinio intelekto (AI) modelius. Kai kurie tyrėjai su apmaudu reagavo į tokius sandorius, vykstančius be autorių konsultacijų. Ši tendencija kelia klausimų apie paskelbtų ir kartais autorių teisių saugomų darbų naudojimą, kad būtų galima išmokyti augantį AI pokalbių programų skaičių.

Ekspertai sako, kad tiriamasis dokumentas, kuris dar nebuvo naudojamas treniruoti didelį balso modelį, greičiausiai bus naudojamas netrukus. Tyrėjai tyrinėja autorių technines galimybes nustatyti, ar naudojamas jų turinys.

Praėjusį mėnesį buvo paskelbta, kad Didžiosios Britanijos mokslo leidėjas „Taylor & Francis“, įsikūrusi Miltono parke, Didžiojoje Britanijoje, pasirašė dešimt milijonų JAV dolerių susitarimo su „Microsoft“, kuris leidžia JAV technologijų įmonei pasiekti leidėjo duomenis, kad pagerintų jos AI sistemas. Birželio mėn. Investuotojų atnaujinimas parodė, kad JAV leidėjas Wiley uždirbo 23 mln. USD, leisdama mokyti generuojančius AI modelius pagal savo turinį.

Viskas, ką galima rasti internete, nesvarbu, ar atviros prieigos saugykloje, ar ne jis jau buvo „gana“, įtrauktas į didelį balso modelį, sako Lucy Lu Wang, AI tyrėja iš Vašingtono universiteto Sietle. „Ir jei popierius jau buvo naudojamas kaip mokymo duomenys modelyje, po modelio mokymo nėra galimybės pašalinti šį popierių“, - priduria ji.

masyvūs duomenų įrašai

LLM yra mokomi didžiulio kiekio duomenų, kurie dažnai yra nugriauti iš interneto. Jie nustato modelius tarp dažnai milijardų balso skyrių mokymo duomenyse, todėl vadinamais žetonais, kurie leidžia jiems generuoti tekstus su nuostabiu skysčiu.

Generaciniai AI modeliai priklauso nuo šių duomenų masių modelių paėmimo, kad būtų galima išvesti tekstus, vaizdus ar kompiuterio kodą. Mokslinis darbas yra vertingas LLM kūrėjams dėl jų ilgio ir „didelio informacijos tankio“, - sako Stefanas Baackas, kuris atlieka AI treniruočių duomenų rinkinių analizę Mozilos fonde San Fransiske, Kalifornijoje.

Auga tendencija pirkti aukštos kokybės duomenų įrašus. Šiais metais „Financial Times Nuoroda ">„ ChatGpt-Developer Openai “ Siūlomas pelningame susitarime, taip pat internetinis forumas„ Reddit “„ Google “. Ir kadangi moksliniai leidėjai tikriausiai laiko alternatyvą kaip neteisėtą jų darbo skimerį, „manau, kad daugiau tokių sandorių yra neišvengiami“, - sako Wang.

Informacijos paslaptys

Kai kurie PG kūrėjai, tokie kaip didelio masto dirbtinio intelekto tinklas, sąmoningai saugo savo duomenų įrašus, tačiau daugelis kompanijų, kurios kuria generatyvinius AI modelius, išlaikė didelę dalį savo treniruočių duomenų paslapties, sako Baackas. „Mes net neįsivaizduojame, kas tai yra“, - sako jis. Atvirojo kodo saugyklos, tokios kaip „Arxiv“ ir „Scientific Database PubMed“, yra laikomos „labai populiariais“ šaltiniais, nors mokamų žurnalų straipsnius greičiausiai nemokamai nugriaus didelės technologijos įmonės. „Jūs visada ieškote tokios informacijos medžioklės“, - priduria jis.

Sunku įrodyti, kad LLM naudojo tam tikrą dokumentą, sako Yves-Alexandre de Montjoye, Londono „Imperial College“ kompiuterių mokslininkas. Viena galimybė yra susidurti su modeliu su neįprastu sakiniu iš teksto ir patikrinti, ar išvestis atitinka kitus originalo žodžius. Tokiu atveju tai yra geras ženklas, kad popierius įtrauktas į mokymo rinkinį. Jei ne, tai nereiškia, kad popierius nebuvo naudojamas - ne tik todėl, kad kūrėjai gali užprogramuoti LLM, kad filtruotų atsakymus, kad įsitikintų, jog jie per atidžiai neatitinka mokymo duomenų. „Norint, kad jis veiktų, reikia daug“, - sako jis.

Kita procedūra, skirta patikrinti, ar duomenys įtraukiami į mokymo duomenų rinkinį, vadinama narystės išvadų ataka. Tai grindžiama idėja, kad modelis įsitikinęs savo leidimu, kai mato tai, ką matė anksčiau. „De Montjoyes“ komanda sukūrė jos versiją, pavadintą LLMS autorių teisių spąstus.

Norėdami įdėti spąstus, komanda generuoja patikimus, bet nesąmoningus sakinius ir slepiasi kūrinyje, pavyzdžiui, kaip baltas tekstas baltame fone arba lauke, kuris rodomas svetainėje kaip nulio plotis. Jei LLM „nustebina“ nepanaudotas kontrolės rinkinys -jo painiavos matas -daugiau nei sakinys, paslėptas tekste “, statistiniai įrodymai, kad spąstai buvo matomi iš anksto“, -sako jis.

Autorių teisių klausimai

Net jei būtų įmanoma įrodyti, kad LLM buvo apmokytas konkrečiame tekste, neaišku, kas bus toliau. Leidėjai teigia, kad autorių teisių saugomų tekstų naudojimas mokymuose be licencijavimo laikomas sužalojimu. Tačiau teisinis priešpriešinis raštas sako, kad LLMS nekopijuoja - jūs išgaunate informacijos turinį iš sutriuškintų mokymo duomenų ir naudojate išmoktas žinias naujam tekstui generuoti.

Galbūt teismo procesas galėtų tai paaiškinti. Tęstiniame JAV konsultavimo įstatyme, kuris galėtų būti novatoriškas, The New York Times „Microsoft“ ir „ChatGpt“, Openai, San Franciske, Kalifornijoje, kūrėjas. Laikraštis kaltina įmones savo žurnalistinio turinio naudojimu be leidimo mokyti savo modelius.

Daugelis akademikų džiaugiasi, kai jų darbas yra įtrauktas į LLMS mokymo duomenis - ypač jei modeliai tampa tikslesni. „Asmeniškai aš neprieštarauju, jei„ Chatbot “rašo savo stiliumi“, - sako Baackas. Tačiau jis pripažįsta, kad jo profesijai gresia LLM, kaip ir kitų profesijų, tokių kaip menininkai ir rašytojai, išlaidos.

Individualūs mokslo autoriai šiuo metu daro mažai įtakos, jei jūsų dokumento leidėjas parduoda prieigą prie jūsų autorių teisių saugomų darbų. Nėra nustatytų priemonių viešai prieinamiems straipsniams priskirti kreditą, ar žinoti, ar buvo naudojamas tekstas.

Kai kurie tyrėjai, įskaitant de Montjoye, yra nusivylę. „Mes norime LLMS, bet vis tiek norime kažko, kas būtų sąžininga, ir aš manau, kad dar neįsitraukėme, kaip atrodo“, - sako jis.