367PX" 767PX ">

wetenschappelijke uitgevers verkopen toegang tot onderzoekswerk aan technologiebedrijven om kunstmatige intelligentie (AI) -modellen te trainen. Sommige onderzoekers reageerden met ontzetting op dergelijke deals die plaatsvinden zonder het overleg van de auteurs. De trend roept vragen op over het gebruik van gepubliceerd en soms auteursrechtelijk beschermd werk om het groeiende aantal AI -chatbots in ontwikkeling te trainen.

Experts zeggen dat een onderzoekspaper dat nog niet is gebruikt om een ​​groot stemmodel te trainen waarschijnlijk binnenkort zal worden gebruikt. Onderzoekers onderzoeken technische kansen voor auteurs om te bepalen of hun inhoud wordt gebruikt.

Vorige maand werd aangekondigd dat de Britse wetenschapsuitgever Taylor & Francis, gevestigd in Milton Park, Groot -Brittannië, een tien miljoen Amerikaanse dollarovereenkomst met Microsoft tekende, waardoor het Amerikaanse technologiebedrijf toegang heeft tot de gegevens van de uitgever om zijn AI -systemen te verbeteren. In juni toonde een beleggersupdate aan dat de Amerikaanse uitgever Wiley $ 23 miljoen verdiende door generatieve AI -modellen op te leiden op zijn inhoud.

Alles wat online beschikbaar is, ongeacht een open toegangsrepository of niet "behoorlijk" is ingevoerd in een groot stemmodel, zegt Lucy Lu Wang, een AI-onderzoeker aan de Universiteit van Washington in Seattle. "En als een paper al is gebruikt als trainingsgegevens in een model, is er geen manier om dit Artikel te verwijderen na het trainen van het model," voegt ze eraan toe.

Massieve gegevensrecords

LLMS zijn getraind op enorme hoeveelheden gegevens die vaak van internet worden afgerond. Ze bepalen patronen tussen de vaak miljarden spraaksecties in de trainingsgegevens, dus aangedreven tokens, waarmee ze teksten met verbazingwekkende vloeistof kunnen genereren.

Generatieve AI -modellen vertrouwen op het nemen van patronen van deze gegevensmassa's om teksten, afbeeldingen of computercode uit te voeren. Wetenschappelijk werk is waardevol voor LLM -ontwikkelaars vanwege hun lengte en "hoge informatiedichtheid", zegt Stefan Baack, die de analyse van AI -trainingsgegevenssets uitvoert bij de Mozilla Foundation in San Francisco, Californië.

De neiging om gegevensrecords van hoge kwaliteit te kopen groeit. This year the Financial Times has its material to the Chatgpt-Developer Openai Aangeboden in een lucratieve deal, evenals de online forum Reddit naar Google. En omdat wetenschappelijke uitgevers het alternatief waarschijnlijk beschouwen als een ongeautoriseerde skimmer van hun werk, "ik denk dat meer dergelijke deals op handen zijn", zegt Wang.

Geheimen van informatie

Sommige AI -ontwikkelaars, zoals het grootschalige kunstmatige intelligentienetwerk, houden hun gegevensrecords opzettelijk open, maar veel bedrijven die generatieve AI -modellen ontwikkelen, hebben een groot deel van hun trainingsgegevensgeheim gehouden, zegt Baack. "We hebben geen idee wat het is", zegt hij. Open source repositories zoals ARXIV en de wetenschappelijke database PubMed worden beschouwd als "zeer populaire" bronnen, hoewel artikelen over de betaalbare tijdschrift waarschijnlijk gratis door grote technologiebedrijven worden opgelopen. "Je bent altijd op zoek naar dergelijke informatie," voegt hij eraan toe.

Het is moeilijk om te bewijzen dat een LLM een bepaald artikel heeft gebruikt, zegt Yves-Alexandre de Montjoye, een computerwetenschapper aan het Imperial College London. Een mogelijkheid is om het model te confronteren met een ongebruikelijke zin uit een tekst en te controleren of de uitvoer overeenkomt met de volgende woorden in het origineel. Als dit het geval is, is dit een goed teken dat het papier is opgenomen in de trainingsset. Als dit niet het geval is, betekent dit niet dat de paper niet is gebruikt - niet in het minst omdat ontwikkelaars de LLM kunnen programmeren om de antwoorden te filteren om ervoor te zorgen dat ze niet te nauw overeenkomen met de trainingsgegevens. "Er is veel voor nodig om het te laten werken", zegt hij.

Een andere procedure om te controleren of gegevens in een trainingsgegevensset worden opgenomen, wordt een lidmaatschapsinferentie -aanval genoemd. Dit is gebaseerd op het idee dat een model vertrouwen heeft in zijn editie wanneer het iets ziet dat het eerder heeft gezien. De Montjoyes -team heeft een versie van IT -copyright trap voor LLMS ontwikkeld.

Om de val te zetten, genereert het team plausibele maar onzinnige zinnen en verbergt zich in een werk, bijvoorbeeld als een witte tekst op een witte achtergrond of in een veld dat op een website wordt weergegeven als een nulbreedte. Als een LLM "verrast" is door een ongebruikte controleset -een maat voor zijn verwarring -meer dan de zin verborgen in de tekst, "het statistische bewijs dat de vallen vooraf zijn gezien," zegt hij.

Copyright -vragen

Zelfs als het mogelijk was om te bewijzen dat een LLM op een specifieke tekst is getraind, is het niet duidelijk wat er zal gebeuren. Uitgevers beweren dat het gebruik van auteursrechtelijk beschermde teksten in training zonder licenties als een blessure wordt beschouwd. Maar een juridisch teller -argument zegt dat LLMS niet kopieert - u haalt informatie -inhoud uit de trainingsgegevens die verpletterd zijn en gebruikt uw geleerde kennis om nieuwe tekst te genereren.

Mogelijk kan een gerechtelijke procedure dit helpen verduidelijken. In een voortdurende Amerikaanse advieswet die pionier zou kunnen zijn, The New York Times Microsoft en de ontwikkelaar van Chatgpt, Openai, in San Francisco, Californië. De krant beschuldigt de bedrijven van het gebruik van hun journalistieke inhoud zonder toestemming om hun modellen te trainen.

Veel academici zijn blij wanneer hun werk is opgenomen in LLMS -trainingsgegevens - vooral als de modellen preciezer worden. "Persoonlijk vind ik het niet erg als een chatbot in mijn stijl schrijft", zegt Baack. Maar hij geeft toe dat zijn beroep niet wordt bedreigd door de uitgaven van de LLM's, zoals die van andere beroepen, zoals kunstenaars en schrijvers.

Individuele wetenschappelijke auteurs hebben momenteel weinig invloed als de uitgever van uw paper toegang tot uw auteursrechtelijk beschermde werken verkoopt. Er zijn geen vastgestelde middelen voor openbaar beschikbare artikelen om een ​​krediet toe te wijzen of te weten of een tekst is gebruikt.

Sommige onderzoekers, waaronder de Montjoye, zijn gefrustreerd. "We willen LLMS, maar we willen nog steeds iets dat eerlijk is, en ik denk dat we nog niet hebben uitgevonden hoe het eruit ziet", zegt hij.