Použil váš papier na trénovanie modelu AI? Najpravdepodobnejšie

Zistite viac o vplyve predaja výskumu technologickým spoločnostiam na školenie modelov AI a objavenia sa otázok. Prečítajte si, ako akademickí vydavatelia predávajú údaje technologickým spoločnostiam a čo sa týka výskumných pracovníkov.

14. August 2024

Natur.wiki Autoren-Team

Artikel als PDF

Kommentare

Diesen Artikel teilen:

Facebook X Whatsapp Email

Vydavatelia vedy predávajú prístup k výskumným prácam technologickým spoločnostiam s cieľom vyškoliť modely umelej inteligencie (AI). Niektorí vedci reagovali s zdesením na takéto dohody, ktoré sa konajú bez konzultácie autorov. Trend vyvoláva otázky týkajúce sa použitia publikovanej a niekedy chránenej prácou na výcvik rastúceho počtu chatbotov AI vo vývoji.

Odborníci tvrdia, že výskumný dokument, ktorý sa ešte nepoužíval na trénovanie veľkého hlasového modelu, sa pravdepodobne čoskoro použije. Vedci skúmajú technické príležitosti pre autorov, aby určili, či sa ich obsah používa.

Minulý mesiac bolo oznámené, že britský vydavateľ vied Taylor & Francis so sídlom v Milton Parku vo Veľkej Británii podpísal dohodu o desiatich miliónoch amerických dolárov so spoločnosťou Microsoft, ktorá umožňuje americkej technologickej spoločnosti prístup k údajom vydavateľa vylepšiť svoje systémy AI. V júni aktualizácia investorov ukázala, že vydavateľ USA Wiley zarobil 23 miliónov dolárov, ktoré umožňujú trénovať generatívne modely AI na svojom obsahu.

Všetko, čo je k dispozícii online--či už v úložisku s otvoreným prístupom alebo nie je už „celkom“, privádzané do veľkého hlasového modelu, hovorí Lucy Lu Wang, výskumná pracovníčka AI na University of Washington v Seattli. „A ak bol papier už použitý ako výcvikové údaje v modeli, neexistuje spôsob, ako tento dokument odstrániť po tréningu modelu,“ dodáva.

Masívne dátové záznamy

LLM sú vyškolení na obrovské množstvo údajov, ktoré sa často odvádzajú z internetu. Určujú vzorce medzi často miliardami hlasových sekcií v údajoch o tréningu, tak zavolané žetóny, ktoré im umožňujú generovať texty s úžasnou tekutinou.

Generatívne modely AI sa spoliehajú na užívanie vzorov z týchto dátových mas, aby sa výstup texty, obrázky alebo kód počítača. Vedecká práca je pre vývojárov LLM cenná kvôli ich dĺžke a „vysokej hustote informácií“, hovorí Stefan Baack, ktorý vykonáva analýzu súborov údajov o výcviku AI v Mozilla Foundation v San Franciscu v Kalifornii.

Tendencia kupovať údaje o vysokej kvalite rastie. Tento rok má Financial Times svoj materiál na Ponúkaný v lukratívnej dohode, ako aj online fórum Reddit pre spoločnosť Google. A keďže vedecní vydavatelia pravdepodobne považujú alternatívu za neoprávneného skimmeru svojej práce, „myslím si, že viac takýchto obchodov je bezprostredné,“ hovorí Wang.

Secrets of Informácie

Niektorí vývojári AI, ako napríklad sieť umelej inteligencie, zámerne udržiavajú svoje záznamy o údajoch otvorené, ale mnoho spoločností, ktoré vyvíjajú generatívne modely AI, si zachovalo veľkú časť svojich tajných údajov o školení, hovorí Baack. „Nemáme potuchy, čo to je,“ hovorí. Úložíky s otvoreným zdrojom, ako je ARXIV a vedecká databáza PubMed, sa považujú za „veľmi populárne“ zdroje, hoci články s výplatou v denníku pravdepodobne budú bezplatné veľké technologické spoločnosti. „Vždy ste na love takýchto informácií,“ dodáva.

Je ťažké dokázať, že LLM použil určitý dokument, hovorí Yves-Alexandre de Montjoye, počítačový vedec spoločnosti Imperial College London. Jednou z možností je konfrontovať model neobvyklou vetou z textu a skontrolovať, či výstup zodpovedá ďalším slovám v origináli. Ak je to tak, je to dobré znamenie, že papier je zahrnutý do výcvikovej sady. Ak nie, neznamená to, že papier sa nepoužil - v neposlednom rade preto, že vývojári môžu programovať LLM na filtrovanie odpovedí, aby sa zabezpečilo, že príliš nezodpovedajú údajom o školeniach. „Trvá to veľa, aby to fungovalo,“ hovorí.

Ďalší postup na kontrolu, či sú údaje zahrnuté do súboru údajov o výcviku, sa nazýva inferenčný útok na členstvo. Je to založené na myšlienke, že model je presvedčený o svojom vydaní, keď vidí niečo, čo videl predtým. Tím De Montjoyes vyvinul verziu s názvom Copyright Trap pre LLMS.

Aby sme vložili pascu, tím generuje hodnoverné, ale nezmyselné vety a skryje sa v práci, napríklad ako biely text na bielom pozadí alebo v poli, ktorý sa zobrazuje na webovej stránke ako nulová šírka. Ak je LLM „prekvapený“ nevyužitým kontrolným súborom -miera jeho zmätku -viac ako veta skrytá v texte, „štatistické dôkazy o tom, že pasce boli vopred videné,“ hovorí.

Otázky týkajúce sa autorských práv

Aj keď bolo možné dokázať, že LLM bol vyškolený na konkrétny text, nie je jasné, čo sa bude diať ďalej. Vydavatelia tvrdia, že používanie textov chránených autorskými právami v školení bez licencií sa považuje za zranenie. Ale právny protivník tvrdí, že LLMS nekopíruje - extrahujete informačný obsah z údajov o školeniach, ktoré sú rozdrvené, a na generovanie nového textu využívate svoje naučené znalosti.

Pravdepodobne by to mohlo pomôcť súdne konanie. V prebiehajúcom zákone o konzultácii v USA, ktorý by mohol byť priekopníkom, Microsoft New York Times a vývojár Chatgpt, OpenAI, v San Franciscu v Kalifornii. Noviny obviňujú spoločnosti z toho, že používajú svoj novinársky obsah bez povolenia na výcvik svojich modelov.

Mnoho akademikov je šťastných, keď je ich práca zahrnutá do údajov o výcviku LLMS - najmä ak sa modely stávajú presnejšie. „Osobne mi nevadí, či chatbot píše v mojom štýle,“ hovorí Baack. Pripúšťa však, že jeho povolanie nie je ohrozená výdavkami LLM, podobne ako u iných profesií, ako sú umelci a spisovatelia.

Jednotliví vedecní autori majú v súčasnosti malý vplyv, ak vydavateľ vášho príspevku predáva prístup k vašim autorským prácam. Neexistujú žiadne stanovené prostriedky pre verejne dostupné články na pridelenie kreditu alebo vedenie, či bol použitý text.

Niektorí vedci, vrátane de Montjoye, sú frustrovaní. „Chceme LLM, ale stále chceme niečo, čo je spravodlivé, a myslím si, že sme ešte nevymysleli, ako to vyzerá,“ hovorí.