Ar jūsų popierius buvo naudojamas mokant dirbtinio intelekto modelį? Labiausiai tikėtina

Dr. Friedrich Schmidt

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am 14.08.2024

Sprache:

Sužinokite daugiau apie mokslinių tyrimų pardavimo technologijų įmonėms, kurios moko dirbtinio intelekto modelius, pasekmes ir jų keliamus klausimus. Skaitykite, kaip akademiniai leidėjai parduoda duomenis technologijų įmonėms ir susirūpinimą, kurį tai kelia mokslininkams.

Erfahren Sie mehr über die Auswirkungen des Verkaufs von Forschungsarbeiten an Technologieunternehmen zur Schulung von KI-Modellen und die Fragen, die sich daraus ergeben. Lesen Sie, wie akademische Verlage Daten an Technologiefirmen verkaufen und welche Bedenken dies bei Forschern hervorruft. — Sužinokite daugiau apie mokslinių tyrimų pardavimo technologijų įmonėms, kurios moko dirbtinio intelekto modelius, pasekmes ir jų keliamus klausimus. Skaitykite, kaip akademiniai leidėjai parduoda duomenis technologijų įmonėms ir susirūpinimą, kurį tai kelia mokslininkams.

Akademiniai leidėjai technologijų įmonėms parduoda prieigą prie mokslinių darbų, kad galėtų mokyti dirbtinio intelekto (AI) modelius. Kai kurie tyrėjai su nerimu reagavo į tokius sandorius, kurie vyksta nepasitarus su autoriais. Ši tendencija kelia klausimų dėl paskelbtų ir kartais autorių teisių saugomų kūrinių naudojimo mokant vis didėjantį AI pokalbių robotų skaičių.

Ekspertai teigia, kad greičiausiai netrukus bus panaudotas mokslinis darbas, kuris dar nebuvo panaudotas lavinant didelį kalbos modelį. Tyrėjai tiria technines galimybes autoriams nustatyti, ar jų turinys naudojamas.

Praėjusį mėnesį buvo paskelbta, kad Didžiosios Britanijos mokslo leidėjas Taylor & Francis, įsikūręs Milton Parke, JK, pasirašė 10 mln. Birželio mėn. investuotojo atnaujinimas parodė, kad JAV leidėjas Wiley uždirbo 23 milijonus dolerių, leisdamas neįvardintai įmonei parengti generatyvius AI modelius pagal savo turinį.

Viskas, kas pasiekiama internete – atviros prieigos saugykloje ar ne – „labai tikėtina“ jau buvo įtraukta į didelį kalbos modelį, sako Lucy Lu Wang, dirbtinio intelekto tyrėja iš Vašingtono universiteto Sietle. „Ir jei popierius jau buvo naudojamas kaip treniruočių duomenys modelyje, jokiu būdu negalima to popieriaus pašalinti po modelio mokymo“, – priduria ji.

Dideli duomenų rinkiniai

LLM yra mokomi apie didžiulius duomenų kiekius, dažnai gaunamus iš interneto. Jie nustato modelius tarp dažnai milijardų kalbos fragmentų mokymo duomenų, vadinamųjų žetonų, kurie leidžia jiems generuoti tekstus nuostabiai sklandžiai.

Generatyvieji dirbtinio intelekto modeliai remiasi šių duomenų masių gavimo modeliais, kad būtų išvestas tekstas, vaizdai ar kompiuterio kodas. Moksliniai dokumentai yra vertingi LLM kūrėjams dėl savo ilgio ir „didelio informacijos tankio“, - sako Stefanas Baackas, analizuojantis AI mokymo duomenų rinkinius Mozilla fonde San Franciske, Kalifornijoje.

Tendencija pirkti aukštos kokybės duomenų rinkinius auga. Šiemet turi„Financial Times“.jų materialinė dem ChatGPT kūrėjas OpenAI pasiūlyta pelningu sandoriu, kaip ir internetinis forumas Reddit to Google. Ir kadangi akademiniai leidėjai alternatyvą greičiausiai vertins kaip neteisėtą savo darbo nuskaitymą, „manau, kad tokių sandorių bus ir daugiau“, – sako Wang.

Informacijos paslaptys

Kai kurie dirbtinio intelekto kūrėjai, pavyzdžiui, didelio masto dirbtinio intelekto tinklas, sąmoningai laiko savo duomenų rinkinius atvirus, tačiau daugelis kompanijų, kuriančių generuojančius AI modelius, didžiąją dalį savo mokymo duomenų laiko paslaptyje, sako Baackas. „Neturime supratimo, kas jame yra“, – sako jis. Atvirojo kodo saugyklos, tokios kaip „arXiv“ ir mokslinė duomenų bazė „PubMed“, laikomos „labai populiariais“ šaltiniais, nors didelės technologijų kompanijos greičiausiai atsiims mokamus žurnalų straipsnius, kad gautų nemokamos skaitomų santraukų. „Jie visada ieško tokios informacijos“, – priduria jis.

Sunku įrodyti, kad LLM naudojo tam tikrą popierių, sako Yves-Alexandre de Montjoye, Londono imperatoriškojo koledžo kompiuterių mokslininkas. Viena iš galimybių yra pateikti modelį neįprastu sakiniu iš teksto ir pažiūrėti, ar išvestis atitinka kitus originalo žodžius. Jei taip yra, tai geras ženklas, kad popierius įtrauktas į mokymo rinkinį. Jei ne, tai nereiškia, kad dokumentas nebuvo panaudotas – ypač todėl, kad kūrėjai gali užprogramuoti LLM filtruoti atsakymus, kad užtikrintų, jog jie per daug nesutampa su mokymo duomenimis. „Tam, kad tai pavyktų, reikia daug“, – sako jis.

Kitas būdas patikrinti, ar duomenys yra įtraukti į mokymo duomenų rinkinį, vadinamas narystės išvados ataka. Tai pagrįsta idėja, kad modelis bus labiau pasitikintis savo rezultatu, kai pamatys tai, ką matė anksčiau. De Montjoye komanda sukūrė šios versijos versiją, vadinamą autorių teisių spąstais, skirtą LLM.

Norėdami nustatyti spąstus, komanda sugeneruoja tikėtinus, bet nesąmoningus sakinius ir paslepia juos darbe, pvz., baltą tekstą baltame fone arba tinklalapio lauke, kuris rodomas kaip nulinis plotis. Jei LLM „nustebina“ nepanaudotas kontrolinis sakinys – jo painiavos matas – labiau nei tekste paslėptas sakinys, „tai statistinis įrodymas, kad spąstai buvo pastebėti anksčiau“, – sako jis.

Autorių teisės problemos

Net jei būtų įmanoma įrodyti, kad LLM buvo apmokytas tam tikru tekstu, neaišku, kas nutiks toliau. Leidėjai teigia, kad autorių teisių saugomų tekstų naudojimas mokymuose be licencijos yra laikomas pažeidimu. Tačiau teisinis kontrargumentas sako, kad LLM nieko nekopijuoja – jie iš mokymo duomenų ištraukia informacijos turinį, jį sutraiško ir naudoja įgytas žinias kurdami naują tekstą.

Galbūt tai padėtų išsiaiškinti teismo byla. Iškelta byla JAV vykstančioje autorių teisių byloje, kuri gali būti novatoriška„The New York Times“.„Microsoft“ ir „ChatGPT“ kūrėjas „OpenAI“ San Franciske, Kalifornijoje. Laikraštis kaltina įmones, kad jos naudoja savo žurnalistinį turinį savo modeliams apmokyti be leidimo.

Daugelis akademikų džiaugiasi, kad jų darbas įtrauktas į LLM mokymo duomenis – ypač kai modeliai tampa tikslesni. „Asmeniškai aš neprieštarauju, jei pokalbių robotas rašo mano stiliumi“, – sako Baackas. Tačiau jis pripažįsta, kad jo profesijai negresia LLM išlaidos, kaip ir kitų profesijų, tokių kaip menininkai ir rašytojai.

Atskiri akademiniai autoriai šiuo metu turi mažai įtakos, kai jų popieriaus leidėjas parduoda prieigą prie jų autorių teisių saugomų darbų. Viešai prieinamiems straipsniams nėra nustatytų būdų, kaip priskirti kreditą arba sužinoti, ar buvo naudojamas tekstas.

Kai kurie tyrinėtojai, įskaitant de Montjoye'ą, yra nusivylę. „Mes norime LLM, bet vis tiek norime kažko, kas būtų sąžininga, ir nemanau, kad dar sugalvojome, kaip tai atrodo“, – sako jis.

Ar jūsų popierius buvo naudojamas mokant dirbtinio intelekto modelį? Labiausiai tikėtina

Dideli duomenų rinkiniai

Informacijos paslaptys

Autorių teisės problemos

Weitersagen oder Speichern

Das Neueste

Naturheilkunde im Aufwind: Politische Reformen stärken alternative Heilmethoden!

Abschirmung von Elektrosmog: Preiswert und Einfach

CBD-Produkte im Fokus: Rechtliche Lage und Forschung auf dem Prüfstand!

Ashwagandha: Wundermittel oder Risiko? Die Wahrheit über die Heilpflanze!

Longevity: Mehr als ein Trend?