Az akadémiai kiadók kutatási dokumentumokhoz való hozzáférést adnak el technológiai cégeknek mesterséges intelligencia (AI) modellek képzése céljából. Egyes kutatók döbbenten reagáltak az ilyen ügyletekre, amelyekre a szerzők konzultációja nélkül kerül sor. A tendencia kérdéseket vet fel azzal kapcsolatban, hogy a publikált és esetenként szerzői jogvédelem alatt álló alkotásokat hogyan használják fel a növekvő számú mesterséges intelligencia chatbotok fejlesztésben való betanításához.

Szakértők szerint egy olyan kutatási dokumentumot, amelyet még nem használtak nagy nyelvi modell képzésére, valószínűleg hamarosan alkalmazni fognak. A kutatók technikai lehetőségeket kutatnak a szerzők számára, hogy megállapítsák, felhasználják-e tartalmukat.

Múlt hónapban jelentették be, hogy a brit Milton Parkban található Taylor & Francis tudományos kiadó 10 millió dolláros szerződést írt alá a Microsofttal, amely lehetővé teszi az amerikai technológiai vállalat számára, hogy hozzáférjen a kiadó adataihoz mesterséges intelligenciájának fejlesztése érdekében. Júniusban egy befektetői frissítés kimutatta, hogy a Wiley amerikai kiadó 23 millió dollárt keresett azzal, hogy lehetővé tette egy meg nem nevezett cég számára, hogy generatív mesterségesintelligencia-modelleket tanítson a tartalomra.

Minden, ami az interneten elérhető – akár nyílt hozzáférésű adattárban van, akár nem –, „nagy valószínűséggel” már bekerült egy nagy nyelvi modellbe – mondja Lucy Lu Wang, a Seattle-i Washington Egyetem mesterséges intelligencia-kutatója. „És ha egy papírt már használtak oktatási adatként egy modellben, akkor a modell betanítása után nem lehet eltávolítani a papírt” – teszi hozzá.

Hatalmas adathalmazok

Az LLM-ek hatalmas mennyiségű adatra vannak kiképezve, amelyek gyakran az internetről származnak. A betanítási adatokban gyakran milliárdnyi beszédrészlet között mintákat azonosítanak, úgynevezett tokeneket, amelyek lehetővé teszik számukra, hogy elképesztő folyékonyan generáljanak szövegeket.

A generatív mesterséges intelligencia modellek ezen adattömegek mintáira támaszkodnak, hogy szöveget, képeket vagy számítógépes kódot adjanak ki. A tudományos iratok értékesek az LLM-fejlesztők számára hosszúságuk és „nagy információsűrűségük miatt” – mondja Stefan Baack, aki a kaliforniai San Francisco-i Mozilla Foundationnél elemzi a mesterséges intelligencia képzési adatkészleteit.

Egyre nagyobb a tendencia a jó minőségű adatkészletek vásárlására. Ebben az évben aFinancial Timesanyaguk dem ChatGPT fejlesztő OpenAI jövedelmező üzletben kínálták, akárcsak a Reddit a Google-nak online fórum. És mivel az akadémiai kiadók valószínűleg úgy tekintenek erre az alternatívára, mint a munkájuk illegális átfedésére, „Úgy gondolom, hogy még több ilyen ügylet lesz még” – mondja Wang.

Az információ titkai

Egyes mesterséges intelligencia-fejlesztők, mint például a Large-scale Artificial Intelligence Network, szándékosan tartják nyitva az adatkészleteiket, de sok generatív mesterséges intelligencia modelleket fejlesztő cég a képzési adataik nagy részét titokban tartja, mondja Baack. „Fogalmunk sincs, mi van benne” – mondja. Az olyan nyílt forráskódú adattárak, mint az arXiv és a PubMed tudományos adatbázis, „nagyon népszerű” forrásnak számítanak, bár a fizetős folyóiratcikkeket valószínűleg a nagy technológiai cégek kiszipolyozzák az ingyenesen olvasható kivonatokért. „Mindig az ilyen jellegű információkra vadásznak” – teszi hozzá.

Nehéz bizonyítani, hogy egy LLM egy bizonyos papírt használt - mondja Yves-Alexandre de Montjoye, az Imperial College London informatikusa. Az egyik lehetőség, hogy szembesítjük a modellt egy szövegből származó szokatlan mondattal, és megnézzük, hogy a kimenet megegyezik-e az eredeti következő szavaival. Ha ez a helyzet, az jó jel, hogy a papír benne van a képzési készletben. Ha nem, ez nem jelenti azt, hogy a papírt nem használták fel – már csak azért sem, mert a fejlesztők beprogramozhatják az LLM-et a válaszok szűrésére, hogy azok ne egyezzenek túl szorosan a képzési adatokkal. „Sok minden kell ahhoz, hogy ez működjön” – mondja.

Egy másik módszer annak ellenőrzésére, hogy egy betanítási adatkészlet tartalmaz-e adatokat, az úgynevezett tagsági következtetési támadás. Ez azon az elgondoláson alapszik, hogy a modell magabiztosabb lesz a teljesítményében, ha olyasmit lát, amit korábban látott. De Montjoye csapata ennek a szerzői jogi csapdának nevezett változatát fejlesztette ki az LLM-ek számára.

A csapda felállításához a csapat hihető, de értelmetlen mondatokat generál, és elrejti őket egy műben, például fehér szöveget fehér alapon vagy egy weboldalon nulla szélességként megjelenített mezőben. Ha egy LLM-et jobban „meglep” egy nem használt ellenőrző mondat – a zavartság mértéke –, mint a szövegben elrejtett mondat, „az statisztikai bizonyíték arra, hogy a csapdákat korábban is látták” – mondja.

Szerzői jogi problémák

Még ha be is lehetne bizonyítani, hogy egy LLM-et egy adott szövegre képeztek ki, nem világos, mi történik ezután. A kiadók azt állítják, hogy a szerzői joggal védett szövegek képzésben engedély nélkül történő felhasználása jogsértésnek minősül. Egy jogi ellenérv azonban azt mondja, hogy az LLM-ek nem másolnak semmit – információtartalmat nyernek ki a képzési adatokból, összetörik azokat, és tanult tudásukat felhasználva új szöveget generálnak.

Talán egy bírósági eljárás segíthet ennek tisztázásában. Beperelték egy folyamatban lévő amerikai szerzői jogi ügyben, amely úttörő lehetA New York TimesA Microsoft és a ChatGPT fejlesztője, az OpenAI a kaliforniai San Franciscóban. Az újság azzal vádolja a cégeket, hogy újságírói tartalmaikkal engedély nélkül képezték ki modelleiket.

Sok akadémikus örül annak, hogy munkája bekerül az LLM-ek képzési adatai közé – különösen a modellek pontosabbá válásával. „Személy szerint nem bánom, ha egy chatbot az én stílusomban ír” – mondja Baack. De elismeri, hogy szakmáját nem fenyegeti az LLM-ek költsége, mint más szakmákét, például művészeket és írókat.

Az egyes tudományos szerzők jelenleg csekély befolyással rendelkeznek, amikor lapjuk kiadója hozzáférést ad el szerzői joggal védett műveikhez. A nyilvánosan elérhető cikkek esetében nincs bevált módszer a hitelek hozzárendelésére vagy annak megállapítására, hogy használtak-e szöveget.

Néhány kutató, köztük de Montjoye is csalódott. „Szeretnénk LLM-eket, de még mindig valami tisztességes dolgot akarunk, és azt hiszem, hogy még nem találtuk ki, hogyan néz ki” – mondja.