Används ditt papper för att träna en AI -modell? Mest trolig

Ta reda på mer om effekterna av att sälja forskning till teknikföretag för utbildning av AI -modeller och de frågor som uppstår. Läs hur akademiska utgivare säljer data till teknikföretag och vad som oroar detta orsakar forskare.

14. August 2024

Natur.wiki Autoren-Team

Artikel als PDF

Kommentare

Diesen Artikel teilen:

Facebook X Whatsapp Email

Allt som finns tillgängligt online-vare sig det är i ett öppet Access-arkiv eller inte-har redan varit "ganska" matat in i en stor röstmodell, säger Lucy Lu Wang, AI-forskare vid University of Washington i Seattle. "Och om ett papper redan har använts som utbildningsdata i en modell, finns det inget sätt att ta bort detta papper efter att ha tränat modellen," tillägger hon.

massiva dataposter

LLM: er tränas på enorma mängder data som ofta skummas från internet. De bestämmer mönster mellan de ofta miljarder röstavsnitten i träningsdata, så kallade tokens, vilket gör det möjligt för dem att generera texter med fantastisk vätska.

Generativa AI -modeller förlitar sig på att ta mönster från dessa datamassor för att mata ut texter, bilder eller datorkod. Vetenskapligt arbete är värdefullt för LLM -utvecklare på grund av deras längd och "hög informationstäthet", säger Stefan Baack, som utför analysen av AI -träningsdatauppsättningar vid Mozilla Foundation i San Francisco, Kalifornien.

Tendensen att köpa dataposter av hög kvalitet växer. I år har Financial Times sitt material till Chatgpt-Developer OpenAI Erbjuds i en lukrativ affär, liksom online-forumet reddit till Google. Och eftersom vetenskapliga förläggare antagligen betraktar alternativet som en obehörig skimmer av deras arbete, "Jag tror att fler sådana erbjudanden är överhängande", säger Wang.

Secrets of Information

Vissa AI -utvecklare, till exempel det stora konstruktionsnätverket i storskalig, håller medvetet sina dataposter öppna, men många företag som utvecklar generativa AI -modeller har hållit en stor del av sin utbildningsdata hemlig, säger Baack. "Vi har ingen aning om vad det är," säger han. Öppna källkodsförvar som ARXIV och den vetenskapliga databasen PubMed betraktas som "mycket populära" källor, även om betalväggade tidskriftsartiklar troligen kommer att skumma upp av stora teknikföretag gratis. "Du är alltid på jakt efter sådan information," tillägger han.

Det är svårt att bevisa att en LLM har använt en viss Artikel, säger Yves-Alexandre de Montjoye, datavetare vid Imperial College London. En möjlighet är att konfrontera modellen med en ovanlig mening från en text och kontrollera om utgången matchar nästa ord i originalet. Om detta är fallet är detta ett bra tecken på att papperet ingår i träningsuppsättningen. Om inte, betyder detta inte att uppsatsen inte har använts - inte minst för att utvecklare kan programmera LLM för att filtrera svaren för att säkerställa att de inte matchar utbildningsdata för nära. "Det krävs mycket för att det ska fungera," säger han.

En annan procedur för att kontrollera om data ingår i en träningsdatauppsättning kallas en medlemsinterferensattack. Detta är baserat på idén att en modell är säker på sin utgåva när den ser något som den har sett tidigare. De Montjoyes -teamet har utvecklat en version av den som heter Copyright Trap för LLMS.

För att sätta fällan genererar teamet rimliga men nonsensiska meningar och gömmer sig i ett verk, till exempel som en vit text på en vit bakgrund eller i ett fält som visas på en webbplats som nollbredd. Om en LLM är "förvånad" av en oanvänd kontrolluppsättning -ett mått på dess förvirring -mer än meningen dold i texten ", det statistiska beviset på att fällorna har sett i förväg," säger han.

Copyright -frågor

Även om det var möjligt att bevisa att en LLM tränades i en specifik text, är det inte klart vad som kommer att hända därefter. Förlag hävdar att användningen av upphovsrättsskyddade texter i utbildning utan licensiering anses vara en skada. Men en juridisk räknare säger att LLMS inte kopierar - du extraherar informationsinnehåll från utbildningsdata som krossas och använder din lärda kunskap för att generera ny text.

möjligen kan ett rättsligt förfarande hjälpa till att klargöra detta. I en pågående amerikansk konsultlag som kan vara banbrytande, The New York Times Microsoft och utvecklaren av Chatgpt, OpenAI, i San Francisco, Kalifornien. Tidningen anklagar företagen för att använda sitt journalistiska innehåll utan tillåtelse att utbilda sina modeller.

Många Akademiker är glada när deras arbete ingår i LLMS -utbildningsdata - särskilt om modellerna blir mer exakta. "Personligen har jag inget emot om en chatbot skriver i min stil," säger Baack. Men han medger att hans yrke inte hotas av utgifterna för LLMS, som andra yrken, till exempel konstnärer och författare.

Enskilda vetenskapliga författare har för närvarande litet inflytande om utgivaren av ditt papper säljer tillgång till dina upphovsrättsskyddade verk. Det finns inga etablerade sätt för allmänt tillgängliga artiklar att tilldela en kredit eller veta om en text har använts.

Vissa forskare, inklusive de Montjoye, är frustrerade. "Vi vill ha LLMS, men vi vill fortfarande ha något som är rättvist, och jag tror att vi ännu inte har uppfunnit hur det ser ut," säger han.