A papírját egy AI modell kiképzésére használták? Valószínűleg

Erfahren Sie mehr über die Auswirkungen des Verkaufs von Forschungsarbeiten an Technologieunternehmen zur Schulung von KI-Modellen und die Fragen, die sich daraus ergeben. Lesen Sie, wie akademische Verlage Daten an Technologiefirmen verkaufen und welche Bedenken dies bei Forschern hervorruft.
Tudjon meg többet az AI modellek és a felmerülő kérdések képzésére szolgáló technológiai vállalatoknak történő kutatás eladásának hatásairól. Olvassa el, hogy az akadémiai kiadók hogyan értékesítik az adatokat a technológiai vállalatoknak, és ez a kutatókat okozza. (Symbolbild/natur.wiki)

A papírját egy AI modell kiképzésére használták? Valószínűleg

<ábra class = "ábra">

Mindent, ami online elérhető, akár egy nyílt hozzáférésű tárolóban, vagy nem-már "meglehetősen" nagy hangmodellbe táplálkoztak-mondta Lucy Lu Wang, a seattle-i washingtoni egyetem AI kutatója. "És ha egy papírt már használtak képzési adatokként egy modellben, akkor a modell edzése után nincs módja annak, hogy eltávolítsuk ezt a papírt" - tette hozzá.

Hatalmas adatrekordok

A

LLM -eket hatalmas mennyiségű adatra képzik, amelyeket gyakran az internetről lecsökkentnek. Meghatározzák az edzési adatok gyakran milliárd hangszakaszának mintáit, az úgynevezett tokenek között, amelyek lehetővé teszik számukra a csodálatos folyadékkal rendelkező szövegek előállítását.

A generatív AI modellek arra támaszkodnak, hogy a mintákat ebből az adat tömegből szöveges, képek vagy számítógépes kódok kidolgozása céljából. Stefan Baack szerint a tudományos munka az LLM fejlesztői számára értékes, mivel hosszuk és "magas információs sűrűségük" - mondja, aki a kaliforniai San Francisco -i Mozilla Alapítvány AI képzési adatkészleteinek elemzését végzi.

Növekszik az a hajlam, hogy a magas színvonalú adatrekordok megvásárolják. This year the Financial Times has its material to the A Chatgpt-Developer Openai jövedelmező üzletben, valamint a Reddit online fórumban kínálja a Google-t. És mivel a tudományos kiadók valószínűleg az alternatívát munkájuk jogosulatlan skimmerének tekintik, "úgy gondolom, hogy több ilyen ügylet küszöbön áll" - mondja Wang.

Információs titkok

Néhány AI fejlesztő, például a nagyszabású mesterséges intelligencia hálózat, szándékosan nyitva tartja az adatrekordjaikat, ám sok olyan vállalat, amely generációs AI modelleket fejlesztett ki, az edzési adatai titkának nagy részét tartotta - mondja Baack. "Fogalmunk sincs, mi az" - mondja. A nyílt forráskódú adattárakat, mint például az ARXIV és a PubMed tudományos adatbázisa, "nagyon népszerű" forrásoknak tekintik, bár a Pay Walled folyóiratcikkeket valószínűleg ingyenesen felszámolják. "Mindig vadászik az ilyen információkért" - tette hozzá.

Nehéz bebizonyítani, hogy egy LLM egy bizonyos papírt használt-mondja Yves-Alexandre de Montjoye, az Imperial College London számítógépes tudósa. Az egyik lehetőség az, hogy a modell szokatlan mondattal szembesüljön egy szövegből, és ellenőrizze, hogy a kimenet megegyezik -e az eredeti következő szavakkal. Ha ez a helyzet, akkor ez jó jele annak, hogy a papír szerepel az edzőkészletben. Ha nem, ez nem azt jelenti, hogy a papírt nem használták - nem utolsósorban azért, mert a fejlesztők programozhatják az LLM -et, hogy kiszűrjék a válaszokat, hogy megbizonyosodjanak arról, hogy azok nem felelnek meg az edzési adatoknak túl szorosan. "Sokat igényel, hogy működjön" - mondja.

Egy másik eljárás annak ellenőrzésére, hogy az adatok szerepelnek -e az edzési adatkészletben, tagsági következtetési támadásnak nevezzük. Ez azon az elképzelésen alapul, hogy egy modell magabiztos a kiadásában, amikor lát valamit, amit korábban látott. A De Montjoyes Team kifejlesztette egy verzióját, amelyet Copyright Trap -nak hívtak az LLMS számára.

A csapda feltétele érdekében a csapat valószínű, de értelmetlen mondatokat generál, és egy műben rejtőzik, például fehér szöveget fehér alapon vagy egy olyan mezőben, amely a weboldalon nulla szélességként jelenik meg. Ha egy LLM -et "meglepő" egy fel nem használt kontrollkészlet -a zavart mérőszáma -több, mint a szövegben rejtett mondat ", a statisztikai bizonyítékok, amelyek szerint a csapdákat már korábban látták" -mondja.

Szerzői jogi kérdések

Még akkor is, ha lehetséges, hogy bebizonyíthatjuk, hogy egy LLM -et egy adott szövegre képzettek, nem világos, hogy mi fog történni ezután. A kiadók azt állítják, hogy a szerzői joggal védett szövegek használata az engedélyezés nélküli képzésben sérülésnek tekinthető. De egy jogi ellenérgű, hogy az LLMS nem másolja - az információtartalmat kivonja az összetörött képzési adatokból, és megtanult ismereteit új szöveg előállításához használja.

esetleg egy bírósági eljárás segíthet ennek tisztázásában. Egy folyamatban lévő amerikai tanácsadási törvényben, amely úttörő lehet, a New York Times Microsoft és a Chatgpt fejlesztője, Openai, a kaliforniai San Francisco -ban. Az újság azzal vádolja a vállalatokat, hogy újságírói tartalmukat engedély nélkül használják modelleik kiképzésére.

Sok akadémikus boldog, amikor munkájukat az LLMS képzési adatokba vonják be - különösen, ha a modellek pontosabbá válnak. "Személy szerint nem bánom, ha egy chatbot az én stílusomban ír" - mondja Baack. De elismeri, hogy szakmáját nem fenyegeti az LLM -ek, például más szakmák, például művészek és írók kiadásai.

Az egyes tudományos szerzőknek jelenleg kevés befolyása van, ha a cikk kiadója hozzáférést ad a szerzői joggal védett művekhez. Nincsenek megállapított eszközök a nyilvánosan elérhető cikkekhez a hitel hozzárendelésére vagy a szöveg használatára.

Néhány kutató, köztük de Montjoye, csalódott. "Szeretnénk LLM -eket, de még mindig akarunk valamit, ami tisztességes, és azt hiszem, még nem találtuk ki, hogy néz ki" - mondja.