Vai jūsu papīrs tika izmantots, lai apmācītu AI modeli? Visticamāk

Vai jūsu papīrs tika izmantots, lai apmācītu AI modeli? Visticamāk
Viss, kas ir pieejams tiešsaistē, neatkarīgi no tā, vai tas ir atvērtas piekļuves krātuvē, vai ne, vai tas jau ir "diezgan" ienācis lielā balss modelī, saka Lūcija Lu Vanga, AI pētniece Vašingtonas universitātē Sietlā. "Un, ja raksts jau ir izmantots kā apmācības dati modelī, pēc modeļa apmācības nav iespējams noņemt šo papīru," viņa piebilst.
Masveida datu ieraksti
LLM ir apmācīti ar milzīgu datu daudzumu, kas bieži tiek atbrīvoti no interneta. Viņi nosaka modeļus starp bieži miljardiem balss sadaļu apmācības datos, tātad sauktie žetoni, kas viņiem ļauj ģenerēt tekstus ar pārsteidzošu šķidrumu.
Ģeneratīvie AI modeļi paļaujas uz šo datu masu modeļu ņemšanu, lai izvadītu tekstus, attēlus vai datora kodu. Zinātniskais darbs ir vērtīgs LLM izstrādātājiem to garuma un "augstās informācijas blīvuma" dēļ, saka Stefans Baaks, kurš veic AI apmācības datu kopu analīzi Mozilla fondā Sanfrancisko, Kalifornijā.
Pieaug tendence pirkt augstas kvalitātes datu ierakstus. Šogad Financial Times ir savs materiāls uz Chatgpt-Developer Openai Piedāvāts ienesīgā darījumā, kā arī tiešsaistes forumā Reddit Google. Un tā kā zinātniskie izdevēji, iespējams, alternatīvu uzskata par neatļautu sava darba skimmeru, "es domāju, ka vairāk šādu darījumu ir nenovēršami," saka Vangs.
Informācijas noslēpumi
Daži AI izstrādātāji, piemēram, liela mēroga mākslīgā intelekta tīkls, apzināti uztur savus datu ierakstus atvērtus, taču daudzi uzņēmumi, kas izstrādā ģeneratīvus AI modeļus, ir saglabājuši lielu daļu viņu apmācības datu noslēpuma, saka Baack. "Mums nav ne jausmas, kas tas ir," viņš saka. Atvērtā pirmkoda krātuvēs, piemēram, ArXIV un zinātniskā datu bāze PubMed, tiek uzskatīti par "ļoti populāriem" avotiem, lai gan lielie tehnoloģiju uzņēmumi, iespējams, bez maksas tiks izlaisti lieli tehnoloģiju uzņēmumi. "Jūs vienmēr meklējat šādu informāciju," viņš piebilst.
Ir grūti pierādīt, ka LLM ir izmantojis noteiktu darbu, saka Yves-Alexandre de Montjoye, Londonas Imperial College datorzinātnieks. Viena iespēja ir stāties pretī modelim ar neparastu teikumu no teksta un pārbaudīt, vai izvade atbilst nākamajiem oriģināla vārdiem. Ja tas tā ir, šī ir laba zīme, ka papīrs ir iekļauts apmācības komplektā. Ja nē, tas nenozīmē, ka dokuments nav izmantots - arī tāpēc, ka izstrādātāji var ieprogrammēt LLM, lai filtrētu atbildes, lai pārliecinātos, ka tie pārāk cieši neatbilst apmācības datiem. "Tas prasa daudz, lai tas darbotos," viņš saka.
Vēl viena procedūra, lai pārbaudītu, vai dati ir iekļauti apmācības datu kopā, sauc par dalības secinājumu uzbrukumu. Tas ir balstīts uz ideju, ka modelis ir pārliecināts par savu izdevumu, kad tas redz kaut ko tādu, ko tas ir redzējis iepriekš. De Montjoyes komanda ir izstrādājusi tās versiju ar nosaukumu Autortiesību slazds LLMS.
Lai ievietotu slazdu, komanda ģenerē ticamus, bet muļķīgus teikumus un slēpjas darbā, piemēram, balts teksts uz balta fona vai laukā, kas tīmekļa vietnē tiek parādīts kā nulles platums. Ja LLM ir "pārsteigts" par neizmantotu kontroles komplektu -tā apjukuma mērs -vairāk nekā teikums, kas paslēpts tekstā ", statistikas pierādījumi, ka slazdi ir redzami iepriekš," viņš saka.
Autortiesību jautājumi
Pat ja būtu iespējams pierādīt, ka LLM tika apmācīts uz noteikta teksta, nav skaidrs, kas notiks tālāk. Izdevēji apgalvo, ka ar autortiesībām aizsargātu tekstu izmantošana apmācībā bez licencēšanas tiek uzskatīta par ievainojumu. Bet juridiskā skaitītāja aragumentā teikts, ka LLMS nav kopijas - jūs iegūstat informācijas saturu no apmācības datiem, kas ir sasmalcināti, un izmantojot jūsu apgūtās zināšanas, lai ģenerētu jaunu tekstu.
Iespējams, ka tiesvedība varētu palīdzēt to noskaidrot. Pastāvīgajā ASV konsultāciju likumā, kas varētu būt novatorisks, The New York Times Microsoft un Chatgpt, Openai izstrādātājs, Sanfrancisko, Kalifornijā. Laikraksts apsūdz uzņēmumus par savu žurnālistikas satura izmantošanu bez atļaujas apmācīt savus modeļus.
Daudzi akadēmiķi ir priecīgi, kad viņu darbs ir iekļauts LLMS apmācības datos - it īpaši, ja modeļi kļūst precīzāki. "Personīgi es neiebilstu, vai tērzēšanas robots raksta manā stilā," saka Baack. Bet viņš atzīst, ka viņa profesiju neapdraud LLM, piemēram, citu profesiju, piemēram, mākslinieku un rakstnieku, izdevumi.
Atsevišķiem zinātniskiem autoriem pašlaik ir maza ietekme, ja jūsu papīra izdevējs pārdod piekļuvi jūsu ar autortiesībām aizsargātajiem darbiem. Nav noteiktu līdzekļu publiski pieejamiem rakstiem, lai piešķirtu kredītu vai zināt, vai teksts ir izmantots.
Daži pētnieki, ieskaitot de Montjoye, ir neapmierināti. "Mēs vēlamies LLM, bet mēs joprojām vēlamies kaut ko taisnīgu, un es domāju, ka mēs vēl neesam izgudrojuši, kā tas izskatās," viņš saka.