Czy twój artykuł był używany do szkolenia modelu AI? Najprawdopodobniej

Erfahren Sie mehr über die Auswirkungen des Verkaufs von Forschungsarbeiten an Technologieunternehmen zur Schulung von KI-Modellen und die Fragen, die sich daraus ergeben. Lesen Sie, wie akademische Verlage Daten an Technologiefirmen verkaufen und welche Bedenken dies bei Forschern hervorruft.
Dowiedz się więcej o skutkach sprzedaży badań firmom technologicznym w celu szkolenia modeli AI i pojawiających się pytań. Przeczytaj, w jaki sposób wydawcy akademiccy sprzedają dane firmom technologicznym i to, co dotyczy to naukowców. (Symbolbild/natur.wiki)

Czy twój artykuł był używany do szkolenia modelu AI? Najprawdopodobniej

<źródło type = "image/webp" srcset = "https://media.nature.com/lw767/magazine-assets/d41586-02599-9/d41586-02599-9_274614222.jpg? https://media.nature.com/lw319/magazine-assets/d41586-0259-9/d41586-02599-9_274614222.jpg?as=webp 319W „SizeS =” (Max-Width) 319px, (Min-Width: 1023px) 100vw, 767px.
Wydawcy naukowe sprzedają dostęp do prac badawczych dla firm technologicznych w celu szkolenia modeli sztucznej inteligencji (AI). Niektórzy badacze zareagowali z przerażeniem na takie umowy, które mają miejsce bez konsultacji autorów. Trend ten rodzi pytania dotyczące korzystania z opublikowanej, a czasem chronionych prawami autorskimi prac nad szkoleniem rosnącej liczby chatbotów AI w rozwoju.

Eksperci twierdzą, że artykuł badawczy, który nie został jeszcze używany do szkolenia modelu dużego głosu, prawdopodobnie zostanie wkrótce użyty. Naukowcy badają techniczne możliwości dla autorów w celu ustalenia, czy ich treść jest używana.

W ubiegłym miesiącu ogłoszono, że brytyjski wydawca nauki Taylor i Francis z siedzibą w Milton Park w Wielkiej Brytanii podpisał umowę z Microsoft, która umożliwia amerykańskiej firmie technologicznej w amerykańskiej firmie technologicznej w celu ulepszenia systemów AI. W czerwcu aktualizacja inwestorów wykazała, że ​​wydawca amerykański Wiley zarobił 23 miliony dolarów na podstawie szkolenia generatywnych modeli AI na swoich treściach.

Wszystko, co jest dostępne online-w repozytorium otwartego dostępu, czy też nie było już „dość” karmione modelem wielkiego głosu, mówi Lucy Lu Wang, badacz AI z University of Washington w Seattle. „A jeśli artykuł został już wykorzystany jako dane treningowe w modelu, nie ma sposobu na usunięcie tego artykułu po szkoleniu modelu” - dodaje.

Masowe rekordy danych

LLM są szkolone na temat ogromnych ilości danych, które często są odtłuszczane z Internetu. Określają wzorce między często miliardami sekcji głosowych w danych szkoleniowych, więc tokeny, które pozwalają im generować teksty z niesamowitym płynem.

Generatywne modele AI opierają się na przyjmowaniu wzorców z tych mas danych w celu wysyłania tekstów, obrazów lub kodu komputerowego. Prace naukowe są cenne dla programistów LLM ze względu na ich długość i „wysoką gęstość informacji”, mówi Stefan Baack, który przeprowadza analizę zestawów danych szkoleniowych AI w Mozilla Foundation w San Francisco w Kalifornii.

Rośnie tendencja do kupowania danych o wysokiej jakości. W tym roku Financial Times ma swój materiał do PubMed, są uważane za „bardzo popularne” źródła, chociaż artykuły w czasopismach wypłaty będą prawdopodobnie bezpłatnie odtłuszczone przez duże firmy technologiczne. „Zawsze szukasz takich informacji” - dodaje.

Trudno jest udowodnić, że LLM wykorzystał określony artykuł, mówi Yves-Alexandre de Montoye, informatyk z Imperial College London. Jedną z możliwości jest skonfrontacja z modelem z nietypowym zdaniem z tekstu i sprawdzenie, czy wyjście pasuje do następnych słów w oryginale. W takim przypadku jest to dobry znak, że papier jest zawarty w zestawie szkoleniowym. Jeśli nie, nie oznacza to, że artykuł nie został użyty - zwłaszcza dlatego, że programiści mogą zaprogramować LLM do filtrowania odpowiedzi, aby upewnić się, że nie pasują do danych treningowych zbyt ściśle. „Zajęło to wiele, aby to zadziałało” - mówi.

Kolejna procedura sprawdzania, czy dane są zawarte w zestawie danych szkoleniowych, nazywa się atakiem wnioskowania członkostwa. Opiera się to na pomyśle, że model jest pewny swojego wydania, gdy widzi coś, co widział wcześniej. Zespół De Montoyes opracował jego wersję o nazwie Copyright Trap dla LLMS.

Aby umieścić pułapkę, zespół generuje prawdopodobne, ale bezsensowne zdania i ukrywa się w pracy, na przykład jako biały tekst na białym tle lub w polu wyświetlanym na stronie internetowej jako zerowa szerokość. Jeśli LLM jest „zaskoczony” niewykorzystanym zestawem kontroli -miary jego zamieszania -więcej niż zdanie ukryte w tekście, „dowód statystyczny, że pułapki były wcześniej widziane”, mówi.

Pytania dotyczące praw autorskich

Nawet jeśli można było udowodnić, że LLM został wyszkolony na określonym tekście, nie jest jasne, co będzie dalej. Wydawcy twierdzą, że korzystanie z tekstów chronionych prawem autorskim podczas szkolenia bez licencji jest uważane za szkodę. Ale legalny kontr -argument mówi, że LLM nie kopiuje - wyodrębniają zawartość informacji z danych szkoleniowych, które są zmiażdżone i wykorzystują wyuczoną wiedzę do generowania nowego tekstu.

Prawdopodobnie postępowanie prawne może pomóc to wyjaśnić. W trwającym amerykańskim prawie konsultingowym, które może być pionierskie, New York Times Microsoft i deweloper Chatgpt, Openai, w San Francisco w Kalifornii. Gazeta oskarża firmy o korzystanie z treści dziennikarskiej bez zgody na szkolenie swoich modeli.

Wielu naukowców jest zadowolonych, gdy ich praca jest uwzględniona w danych szkoleniowych LLM - szczególnie jeśli modele stają się bardziej precyzyjne. „Osobiście nie mam nic przeciwko, jeśli chatbot pisze w moim stylu” - mówi Baack. Przyznaje jednak, że jego zawodowi nie jest zagrożony wydatkami LLM, podobnie jak inne zawody, takie jak artyści i pisarze.

Poszczególni autorzy naukowe mają obecnie niewielki wpływ, jeśli wydawca twojego artykułu sprzedaje dostęp do twoich dzieł chronionych prawem autorskim. Nie ma ustalonych środków dla publicznie dostępnych artykułów, aby przypisać kredyt lub wiedzieć, czy użyto tekstu.

Niektórzy badacze, w tym de Montoye, są sfrustrowani. „Chcemy LLM, ale nadal chcemy czegoś, co jest uczciwe, i myślę, że nie wymyśliliśmy jeszcze tego, jak to wygląda” - mówi.