Hârtia dvs. a fost folosită pentru a antrena un model AI? Cel mai probabil

Erfahren Sie mehr über die Auswirkungen des Verkaufs von Forschungsarbeiten an Technologieunternehmen zur Schulung von KI-Modellen und die Fragen, die sich daraus ergeben. Lesen Sie, wie akademische Verlage Daten an Technologiefirmen verkaufen und welche Bedenken dies bei Forschern hervorruft.
Aflați mai multe despre efectele vânzării cercetării către companiile de tehnologie pentru formarea modelelor AI și întrebările care apar. Citiți modul în care editorii academici vând date către companiile de tehnologie și ceea ce privește acest lucru provoacă cercetători. (Symbolbild/natur.wiki)

Hârtia dvs. a fost folosită pentru a antrena un model AI? Cel mai probabil

>> 1023px) 100vw, 767px"

editorii de știință vând acces la lucrări de cercetare către companii de tehnologie pentru a instrui modele de inteligență artificială (AI). Unii cercetători au reacționat cu consternarea la astfel de oferte care au loc fără consultarea autorilor. Tendința ridică întrebări cu privire la utilizarea lucrărilor publicate și uneori protejate de drepturi de autor pentru a antrena numărul tot mai mare de chatbots AI în dezvoltare.

Experții spun că o lucrare de cercetare care nu a fost încă folosită pentru a antrena un model vocal mare va fi probabil utilizată în curând. Cercetătorii explorează oportunități tehnice pentru autori pentru a stabili dacă conținutul lor este utilizat.

Luna trecută a fost anunțată că editorul britanic de știință Taylor & Francis, cu sediul în Milton Park, Marea Britanie, a semnat un acord de zece milioane de dolari americani cu Microsoft, care permite companiei de tehnologie din SUA să acceseze datele editorului pentru a -și îmbunătăți sistemele AI. În iunie, o actualizare a investitorilor a arătat că editorul american Wiley a câștigat 23 de milioane de dolari prin permise să instruiască modele AI generative pe conținutul său.

Tot ceea ce este disponibil online-indiferent dacă într-un depozit de acces deschis sau nu a fost deja „destul de” alimentat într-un model vocal mare, spune Lucy Lu Wang, cercetător AI la Universitatea Washington din Seattle. „Și dacă o lucrare a fost deja folosită ca date de instruire într -un model, nu există nicio modalitate de a elimina această lucrare după instruirea modelului”, adaugă ea.

înregistrări masive de date

LLM -urile sunt instruite pe cantități uriașe de date care sunt adesea degresate de pe internet. Aceștia determină tiparele dintre cele mai multe miliarde de secțiuni vocale din datele de instruire, astfel încât jetoanele numite, care le permit să genereze texte cu lichid uimitor.

Modele AI generative se bazează pe preluarea modelelor din aceste mase de date pentru a ieși texte, imagini sau cod computer. Munca științifică este valoroasă pentru dezvoltatorii LLM datorită lungimii și „densității informaționale ridicate”, spune Stefan Baack, care efectuează analiza seturilor de date de instruire AI la Fundația Mozilla din San Francisco, California.

Tendința de a cumpăra înregistrări de date de înaltă calitate crește. Anul acesta Financial Times își are materialul pentru TEXTY"> TEXTORIE TEXTORIES TEXTORIES. Chatgpt-Developer Openai Oferit într-o afacere profitabilă, precum și forumul online reddit la Google. Și din moment ce editorii științifici consideră probabil alternativa ca un skimmer neautorizat al activității lor, „Cred că mai multe astfel de oferte sunt iminente”, spune Wang.

Secretele informațiilor

Unii dezvoltatori AI, cum ar fi rețeaua de informații artificiale la scară largă, își păstrează în mod deliberat înregistrările de date deschise, dar multe companii care dezvoltă modele AI generative au păstrat o mare parte din secretul lor de date de instruire, spune Baack. „Nu avem idee despre ce este vorba”, spune el. Depozitele open source, cum ar fi Arxiv și baza de date științifică, PubMed, sunt considerate surse „foarte populare”, deși articolele de jurnal plătite sunt susceptibile să fie degresate de companii mari de tehnologie. „Sunteți mereu la vânătoare pentru astfel de informații”, adaugă el.

Este dificil de demonstrat că un LLM a folosit o anumită hârtie, spune Yves-Alexandre de Montjoye, un informatician la Imperial College London. O posibilitate este de a confrunta modelul cu o propoziție neobișnuită dintr -un text și de a verifica dacă ieșirea se potrivește cu următoarele cuvinte din original. Dacă acesta este cazul, acesta este un semn bun că lucrarea este inclusă în setul de antrenament. Dacă nu, acest lucru nu înseamnă că lucrarea nu a fost folosită - nu în ultimul rând pentru că dezvoltatorii pot programa LLM pentru a filtra răspunsurile pentru a se asigura că nu se potrivesc prea îndeaproape cu datele de instruire. „Este nevoie de mult pentru a -l face să funcționeze”, spune el.

O altă procedură pentru verificarea dacă datele sunt incluse într -un set de date de instruire se numește atac de inferență de membru. Aceasta se bazează pe ideea că un model este încrezător în ediția sa atunci când vede ceva ce a văzut înainte. Echipa De Montjoyes a dezvoltat o versiune a acesteia numită Copyright Trap pentru LLMS.

Pentru a pune capcana, echipa generează propoziții plauzibile, dar nesensibile și se ascunde într -o lucrare, de exemplu ca text alb pe un fundal alb sau într -un câmp care este afișat pe un site web ca o lățime zero. Dacă un LLM este „surprins” de un set de control neutilizat -o măsură a confuziei sale -mai mult decât propoziția ascunsă în text ”, dovezile statistice că capcanele au fost văzute anterior”, spune el.

întrebări despre drepturi de autor

Chiar dacă a fost posibil să se demonstreze că un LLM a fost instruit pe un text specific, nu este clar ce se va întâmpla în continuare. Editorii susțin că utilizarea textelor protejate de drepturi de autor la instruire fără licențiere este considerată o vătămare. Dar un contor legal -argument spune că LLMS nu copiază - extrageți conținut de informații din datele de instruire care sunt zdrobite și utilizați cunoștințele învățate pentru a genera text nou.

posibil o procedură legală ar putea ajuta la clarificarea acestui lucru. Într -o lege de consultanță americană în curs de desfășurare, care ar putea fi de pionierat, The New York Times Microsoft și dezvoltatorul Chatgpt, Openai, din San Francisco, California. Ziarul acuză companiile că și -au folosit conținutul jurnalistic fără permisiunea de a -și antrena modelele.

Mulți academicieni sunt fericiți atunci când munca lor este inclusă în datele de formare LLMS - mai ales dacă modelele devin mai precise. „Personal, nu mă deranjează dacă un chatbot scrie în stilul meu”, spune Baack. Dar recunoaște că profesia sa nu este amenințată de cheltuielile LLM -urilor, precum cea a altor profesii, cum ar fi artiști și scriitori.

Autorii științifici individuali au în prezent o influență redusă dacă editorul lucrării dvs. vinde acces la lucrările dvs. de drept de autor. Nu există mijloace stabilite pentru articole disponibile public pentru a atribui un credit sau pentru a ști dacă a fost utilizat un text.

Unii cercetători, inclusiv De Montjoye, sunt frustrați. „Vrem LLM -uri, dar încă vrem ceva corect și cred că nu am inventat încă cum arată”, spune el.