A papírját egy AI modell kiképzésére használták? Valószínűleg

A papírját egy AI modell kiképzésére használták? Valószínűleg
Mindent, ami online elérhető, akár egy nyílt hozzáférésű tárolóban, vagy nem-már "meglehetősen" nagy hangmodellbe táplálkoztak-mondta Lucy Lu Wang, a seattle-i washingtoni egyetem AI kutatója. "És ha egy papírt már használtak képzési adatokként egy modellben, akkor a modell edzése után nincs módja annak, hogy eltávolítsuk ezt a papírt" - tette hozzá.
Hatalmas adatrekordok
ALLM -eket hatalmas mennyiségű adatra képzik, amelyeket gyakran az internetről lecsökkentnek. Meghatározzák az edzési adatok gyakran milliárd hangszakaszának mintáit, az úgynevezett tokenek között, amelyek lehetővé teszik számukra a csodálatos folyadékkal rendelkező szövegek előállítását.
A generatív AI modellek arra támaszkodnak, hogy a mintákat ebből az adat tömegből szöveges, képek vagy számítógépes kódok kidolgozása céljából. Stefan Baack szerint a tudományos munka az LLM fejlesztői számára értékes, mivel hosszuk és "magas információs sűrűségük" - mondja, aki a kaliforniai San Francisco -i Mozilla Alapítvány AI képzési adatkészleteinek elemzését végzi.
Növekszik az a hajlam, hogy a magas színvonalú adatrekordok megvásárolják. This year the Financial Times has its material to the A Chatgpt-Developer Openai jövedelmező üzletben, valamint a Reddit online fórumban kínálja a Google-t. És mivel a tudományos kiadók valószínűleg az alternatívát munkájuk jogosulatlan skimmerének tekintik, "úgy gondolom, hogy több ilyen ügylet küszöbön áll" - mondja Wang.
Információs titkok
Néhány AI fejlesztő, például a nagyszabású mesterséges intelligencia hálózat, szándékosan nyitva tartja az adatrekordjaikat, ám sok olyan vállalat, amely generációs AI modelleket fejlesztett ki, az edzési adatai titkának nagy részét tartotta - mondja Baack. "Fogalmunk sincs, mi az" - mondja. A nyílt forráskódú adattárakat, mint például az ARXIV és a PubMed tudományos adatbázisa, "nagyon népszerű" forrásoknak tekintik, bár a Pay Walled folyóiratcikkeket valószínűleg ingyenesen felszámolják. "Mindig vadászik az ilyen információkért" - tette hozzá.Nehéz bebizonyítani, hogy egy LLM egy bizonyos papírt használt-mondja Yves-Alexandre de Montjoye, az Imperial College London számítógépes tudósa. Az egyik lehetőség az, hogy a modell szokatlan mondattal szembesüljön egy szövegből, és ellenőrizze, hogy a kimenet megegyezik -e az eredeti következő szavakkal. Ha ez a helyzet, akkor ez jó jele annak, hogy a papír szerepel az edzőkészletben. Ha nem, ez nem azt jelenti, hogy a papírt nem használták - nem utolsósorban azért, mert a fejlesztők programozhatják az LLM -et, hogy kiszűrjék a válaszokat, hogy megbizonyosodjanak arról, hogy azok nem felelnek meg az edzési adatoknak túl szorosan. "Sokat igényel, hogy működjön" - mondja.
Egy másik eljárás annak ellenőrzésére, hogy az adatok szerepelnek -e az edzési adatkészletben, tagsági következtetési támadásnak nevezzük. Ez azon az elképzelésen alapul, hogy egy modell magabiztos a kiadásában, amikor lát valamit, amit korábban látott. A De Montjoyes Team kifejlesztette egy verzióját, amelyet Copyright Trap -nak hívtak az LLMS számára.
A csapda feltétele érdekében a csapat valószínű, de értelmetlen mondatokat generál, és egy műben rejtőzik, például fehér szöveget fehér alapon vagy egy olyan mezőben, amely a weboldalon nulla szélességként jelenik meg. Ha egy LLM -et "meglepő" egy fel nem használt kontrollkészlet -a zavart mérőszáma -több, mint a szövegben rejtett mondat ", a statisztikai bizonyítékok, amelyek szerint a csapdákat már korábban látták" -mondja.
Szerzői jogi kérdések
Még akkor is, ha lehetséges, hogy bebizonyíthatjuk, hogy egy LLM -et egy adott szövegre képzettek, nem világos, hogy mi fog történni ezután. A kiadók azt állítják, hogy a szerzői joggal védett szövegek használata az engedélyezés nélküli képzésben sérülésnek tekinthető. De egy jogi ellenérgű, hogy az LLMS nem másolja - az információtartalmat kivonja az összetörött képzési adatokból, és megtanult ismereteit új szöveg előállításához használja.
esetleg egy bírósági eljárás segíthet ennek tisztázásában. Egy folyamatban lévő amerikai tanácsadási törvényben, amely úttörő lehet, a New York Times Microsoft és a Chatgpt fejlesztője, Openai, a kaliforniai San Francisco -ban. Az újság azzal vádolja a vállalatokat, hogy újságírói tartalmukat engedély nélkül használják modelleik kiképzésére.
Sok akadémikus boldog, amikor munkájukat az LLMS képzési adatokba vonják be - különösen, ha a modellek pontosabbá válnak. "Személy szerint nem bánom, ha egy chatbot az én stílusomban ír" - mondja Baack. De elismeri, hogy szakmáját nem fenyegeti az LLM -ek, például más szakmák, például művészek és írók kiadásai.
Az egyes tudományos szerzőknek jelenleg kevés befolyása van, ha a cikk kiadója hozzáférést ad a szerzői joggal védett művekhez. Nincsenek megállapított eszközök a nyilvánosan elérhető cikkekhez a hitel hozzárendelésére vagy a szöveg használatára.
Néhány kutató, köztük de Montjoye, csalódott. "Szeretnénk LLM -eket, de még mindig akarunk valamit, ami tisztességes, és azt hiszem, még nem találtuk ki, hogy néz ki" - mondja.