Byl váš papír zvyklý trénovat model AI? S největší pravděpodobností

Byl váš papír zvyklý trénovat model AI? S největší pravděpodobností
Všechno, co je k dispozici online-ať už je v úložišti otevřeného přístupu nebo není „docela“ přiváděno do velkého hlasového modelu, říká Lucy Lu Wang, výzkumná pracovníky AI na University of Washington v Seattlu. „A pokud byl papír již použit jako tréninková data v modelu, neexistuje způsob, jak tento papír odstranit po tréninku modelu,“ dodává.
Masivní datové záznamy
LLM jsou vyškoleny na obrovské množství dat, která jsou často odsunutá z internetu. Určují vzorce mezi často miliardami hlasových sekcí v tréninkových datech, takže tokeny, které jim umožňují generovat texty s úžasnou kapalinou.
Generativní modely AI se spoléhají na převzetí vzorů z těchto datových hmot za účelem výstupu textů, obrázků nebo počítačového kódu. Vědecká práce je pro vývojáře LLM cenná kvůli jejich délce a „vysoké hustotě informací“, říká Stefan Baack, který provádí analýzu tréninkových dat AI v Nadaci Mozilla v San Franciscu v Kalifornii.
Tendence k nákupu vysoce kvalitních datových záznamů roste. This year the Financial Times has its material to the Chatgpt-Developer OpenAI nabízený v lukrativní dohodě a také online fórum Reddit pro Google. A protože vědečtí vydavatelé pravděpodobně považují alternativu za neoprávněný skimmer své práce, „myslím, že více takových obchodů je bezprostřední,“ říká Wang.
Secrets of Information
Někteří vývojáři AI, jako je rozsáhlá síť umělé inteligence, úmyslně udržují své datové záznamy otevřené, ale mnoho společností, které vyvíjejí generativní modely AI, udržovaly velkou část svého tréninkového dat tajemství, říká Baack. „Nemáme ponětí, co to je,“ říká. Úložiště s otevřeným zdrojovým kódem jako ARXIV a Scientific Database PubMed jsou považovány za „velmi populární“ zdroje, i když články o výplatních časopisech budou pravděpodobně odstředěny velkými technologickými společnostmi. „Jste vždy na lovu takových informací,“ dodává.
Je obtížné prokázat, že LLM použil určitý papír, říká Yves-Alexandre de Montjoye, počítačový vědec v Imperial College London. Jednou z možností je konfrontovat model s neobvyklou větou z textu a zkontrolovat, zda výstup odpovídá dalším slovům v originálu. Pokud tomu tak je, je to dobré znamení, že papír je zahrnut do tréninkové sady. Pokud ne, neznamená to, že papír nebyl použit - v neposlední řadě proto, že vývojáři mohou programovat LLM pro filtrování odpovědí, aby zajistili, že se příliš neodpovídají tréninkovým datům. „To, aby to fungovalo, trvá hodně,“ říká.
6 To je založeno na myšlence, že model je přesvědčen o svém vydání, když vidí něco, co předtím viděl. De Montjoyes Team vyvinul její verzi s názvem Copyright Trap pro LLMS.Aby se past vložila, generuje tým věrohodné, ale nesmyslné věty a skrývá se v práci, například jako bílý text na bílém pozadí nebo v poli, které se zobrazuje na webu jako nulová šířka. Pokud je LLM „překvapen“ nevyužitými kontrolními sadami -měřítkem jeho zmatku -více než věta skrytá v textu, “statistický důkaz, že pasti byly předem vidět," říká.
otázky autorských práv
I když bylo možné prokázat, že LLM byl vyškolen na konkrétním textu, není jasné, co se stane dál. Vydavatelé tvrdí, že použití textů chráněných autorskými právy při školení bez licencí se považuje za zranění. Ale právní protiopatření - argument říká, že LLMS nekopíruje - extrahujete informační obsah z údajů o školení, které jsou rozdrceny a používají vaše naučené znalosti ke generování nového textu.
Možná by to mohlo objasnit právní řízení. V probíhajícím americkém poradenském zákoně, který by mohl být průkopnickým, The New York Times Microsoft a vývojář Chatgpt, OpenAI, v San Franciscu v Kalifornii. Noviny obviňují společnosti z používání jejich žurnalistického obsahu bez povolení trénovat své modely.
Mnoho akademiků je šťastných, když je jejich práce zahrnuta do údajů o školení LLMS - zejména pokud jsou modely přesnější. „Osobně mi nevadí, jestli chatbot píše ve svém stylu,“ říká Baack. Přiznává však, že jeho profese není ohrožena výdajem LLM, jako jsou jiných profesí, jako jsou umělci a spisovatelé.
Individuální vědecké autoři mají v současné době malý vliv, pokud vydavatel vaší práce prodá přístup k vašim děl chráněných autorskými právy. Pro veřejně dostupné články neexistují žádné zavedené prostředky k přiřazení úvěru nebo vědět, zda byl použit text.
Někteří vědci, včetně de Montjoye, jsou frustrovaní. "Chceme LLMS, ale stále chceme něco, co je spravedlivé, a myslím, že jsme ještě nevynalezli, jak to vypadá," říká.