Kas teie paberit kasutati AI mudeli koolitamiseks? Tõenäoliselt

Kas teie paberit kasutati AI mudeli koolitamiseks? Tõenäoliselt
Kõik, mis on veebis saadaval-kas avatud juurdepääsu hoidlas või mitte, on juba "üsna" suure häälemudelisse toidetud, ütles Seattle'i Washingtoni ülikooli AI-teadlane Lucy Lu Wang. "Ja kui paberit on juba mudeli koolitusandmetena kasutatud, ei saa seda paberit pärast mudeli koolitamist kuidagi eemaldada," lisab ta.
massiivsed andmekirjed
LLM -id koolitatakse tohutul hulgal andmeid, mis on sageli Internetist välja lülitatud. Nad määravad treeninguandmetes sageli miljardite häällõikude vahel mustrid, seega nimetatud žetoonid, mis võimaldavad neil genereerida hämmastava vedelikuga tekste.
Generatiivsed AI -mudelid tuginevad tekstide, piltide või arvutikoodi väljastamiseks nende andmemasside mustrite võtmisele. Teaduslik töö on LLM -i arendajatele väärtuslik tänu nende pikkusele ja "suurele teabetihedusele", ütles Stefan Baack, kes viib läbi Californias San Franciscos asuvas Mozilla fondis AI treeninguandmete komplektide analüüsi.
Kalduvus kvaliteetsete andmete kirjete ostmiseks kasvab. Sel aastal on Financial Times oma materjali ChatGpt-Desprener OpenAI Pakutakse tulusas tehingus, samuti veebifoorumi Reddit Google'ile. Ja kuna teaduslikud kirjastajad peavad seda alternatiivi tõenäoliselt oma töö loata koorijaks, "arvan, et rohkem selliseid pakkumisi on peatselt peatsed," ütleb Wang.
teabe saladused
Mõned AI arendajad, näiteks suuremahuline tehisintellektivõrk, hoiavad teadlikult oma andmeplaate avatuna, kuid paljud generatiivse AI -mudeleid arendanud ettevõtted on hoidnud suurt osa nende koolitusandmetest salaja, ütles Baack. "Meil pole aimugi, mis see on," ütleb ta. Avatud lähtekoodiga hoidlaid nagu ARXIV ja teaduslik andmebaas PubMed peetakse "väga populaarseteks" allikateks, ehkki suure tehnoloogiaettevõtted on tõenäoliselt tasuta seinaga ajakirjaartiklid. "Olete alati sellise teabe jahti pidanud," lisab ta.
Raske on tõestada, et LLM on kasutanud teatud paberit, ütles Londoni Imperial College'i arvutiteadlane Yves-Alexandre de Montjoy. Üks võimalus on silmitsi mudeliga tekstist ebahariliku lausega ja kontrollida, kas väljund vastab originaali järgmistele sõnadele. Kui see on nii, on see hea märk sellest, et paber on lisatud treeningkomplekti. Kui ei, siis see ei tähenda, et paberit pole kasutatud - ka seetõttu, et arendajad saavad LLM -i programmeerida vastuseid filtreerimiseks, et tagada, et need ei vasta koolitusandmetele liiga tihedalt. "Selle toimimiseks kulub palju," ütleb ta.
Veel üks protseduur, kuidas kontrollida, kas koolitusandmete kogumisse kaasatakse andmeid, nimetatakse liikmelisuse järelduste rünnakuks. See põhineb mõttel, et mudel on oma väljaandes kindel, kui ta näeb midagi, mida ta on varem näinud. De Montjoysi meeskond on välja töötanud LLMS -i autoriõiguse lõksu nimega versiooni.
Lõksu panemiseks genereerib meeskond usutavaid, kuid mõttetuid lauseid ja peidab teoses, näiteks valge tekstina valgel taustal või väljal, mis kuvatakse veebisaidil nulllaiusena. Kui LLM -i "üllatab" kasutamata kontrollkomplekti -selle segaduse mõõt -rohkem kui tekstis peidetud lause "," ütleb statistilised tõendid selle kohta, et püünised on eelnevalt nähtud, "ütleb ta.
Autoriõiguse küsimused
Isegi kui oleks võimalik tõestada, et LLM -i koolitati konkreetsele tekstile, pole selge, mis edasi saab. Kirjastajad väidavad, et autoriõigustega kaitstud tekstide kasutamist koolitusel ilma litsentsimiseta peetakse vigastuseks. Kuid juriidiline vastuargument ütleb, et LLMS ei kopeeri - eraldate teabe sisu purustatud koolitusandmetest ja kasutate õpitud teadmisi uue teksti genereerimiseks.
Võimalik, et kohtumenetlus võiks seda selgitada. Käimasolevas USA nõustamisseaduses, mis võiks olla teedrajav, New York Times Microsoft ja Californias San Franciscos OpenAi ChatGPT arendaja. Ajaleht süüdistab ettevõtteid oma ajakirjandusliku sisu kasutamises ilma oma mudelite koolitamiseks loata.
Paljud akadeemikud on õnnelikud, kui nende töö kuulub LLMS -i koolitusandmetes - eriti kui mudelid muutuvad täpsemaks. "Isiklikult ei pahanda ma, kui vestlusbot kirjutab minu stiilis," ütleb Baack. Kuid ta tunnistab, et tema elukutse ei ohusta LLM -ide kulutused, nagu teiste elukutsete, näiteks kunstnike ja kirjanike oma.
Üksikutel teadusautoritel on praegu vähe mõju, kui teie paberi väljaandja müüb juurdepääsu teie autoriõigustega kaitstud teostele. Krediidi määramiseks või teksti kasutamiseks pole avalikult kättesaadavate artiklite jaoks väljakujunenud vahendeid.
Mõned teadlased, sealhulgas De Montjoye, on pettunud. "Me tahame LLMS -i, kuid tahame ikkagi midagi õiglast, ja ma arvan, et me pole veel leiutanud, kuidas see välja näeb," ütleb ta.