Използвана ли е вашата хартия за трениране на AI модел? Най -вероятно

Използвана ли е вашата хартия за трениране на AI модел? Най -вероятно
Science Publishers продават достъп до изследователска работа на технологичните компании, за да обучат моделите на изкуствен интелект (AI). Някои изследователи реагираха с ужас на подобни сделки, които се провеждат без консултацията на авторите. Тенденцията повдига въпроси относно използването на публикуваната и понякога защитена с авторски права работа за обучение на нарастващия брой на AI чатботите в развитието.
Експертите казват, че изследователски документ, който все още не е бил използван за обучение на голям гласов модел, вероятно ще бъде използван скоро. Изследователите изследват техническите възможности на авторите да определят дали тяхното съдържание се използва.
Миналия месец бе обявено, че британският издател на науката Тейлър и Франсис със седалище в Милтън Парк, Великобритания, подписа сделка с десет милиона щатски долари с Microsoft, която дава възможност на американската технологична компания да получи достъп до данните на издателя, за да подобри своите AI системи. През юни актуализация на инвеститорите показа, че американският издател Wiley спечели 23 милиона долара, като разреши да обучава генеративни модели на AI върху съдържанието си.Всичко, което е достъпно онлайн, независимо дали в хранилище с отворен достъп или не е вече „доста“, подадено в голям гласов модел, казва Люси Лу Уанг, изследовател на ИИ от Университета във Вашингтон в Сиатъл. „И ако документ вече е използван като данни за обучение в модел, няма начин да се премахне този документ след обучение на модела“, добавя тя.
Масивни записи на данни
llms се обучават на огромни количества данни, които често са обезмаслени от интернет. Те определят моделите между често милиардите гласови секции в данните за обучение, така че наречени маркери, които им позволяват да генерират текстове с невероятна течност.
Генеративните модели на AI разчитат на вземане на модели от тези масиви от данни, за да извеждат текстове, изображения или компютърен код. Научната работа е ценна за разработчиците на LLM поради тяхната дължина и "висока плътност на информацията", казва Стефан Баак, който извършва анализа на наборите от данни за обучение на AI във фондация Mozilla в Сан Франциско, Калифорния.
Тенденцията за закупуване на висококачествени записи на данни нараства. Тази година Financial Times има своя материал за PubMed се считат за "много популярни" източници, въпреки че артикулите с платени журнали вероятно ще бъдат обезмаслени от големи технологични компании безплатно. "Винаги сте на лов за такава информация", добавя той.
Трудно е да се докаже, че LLM е използвал определена книга, казва Ив-Александър де Монтьое, компютърен учен от Imperial College London. Една от възможностите е да се изправите срещу модела с необичайно изречение от текст и да проверите дали изходът съвпада със следващите думи в оригинала. Ако случаят е такъв, това е добър знак, че хартията е включена в тренировъчния набор. Ако не, това не означава, че хартията не е била използвана - не на последно място, защото разработчиците могат да програмират LLM за филтриране на отговорите, за да гарантират, че те не съвпадат с данните за обучение твърде внимателно. "Необходимо е много, за да работи", казва той.
Друга процедура за проверка дали данните са включени в набор от данни за обучение, се нарича атака на изводи за членство. Това се основава на идеята, че моделът е уверен в своето издание, когато вижда нещо, което е виждал преди. Екипът на De Montjoyes е разработил версия на него, наречена Copyright Trap за LLMS.
За да постави капана, екипът генерира правдоподобни, но безсмислени изречения и се крие в едно произведение, например като бял текст на бял фон или в поле, което се показва на уебсайт като нулева ширина. Ако LLM е "изненадан" от неизползван контролен набор -мярка за объркването му -повече от изречението, скрито в текста ", статистическите доказателства, че капаните са били видени предварително", казва той.
Въпроси за авторски права
Дори и да е възможно да се докаже, че LLM е обучен на конкретен текст, не е ясно какво ще се случи след това. Издателите твърдят, че използването на текстове, защитени с авторски права при обучение без лицензиране, се счита за нараняване. Но законният контра -Аргумент казва, че LLMS не копира - извличате информационно съдържание от данните за обучение, които са смазани и използвайте вашите научени знания, за да генерирате нов текст.
Вероятно съдебно производство би могло да помогне за изясняване на това. В продължаващ американски консултантски закон, който може да бъде пионерски, The New York Times Microsoft и разработчикът на Chatgpt, Openai, в Сан Франциско, Калифорния. Вестникът обвинява компаниите, че използват журналистическото си съдържание без разрешение да обучават своите модели.
Много учени са щастливи, когато работата им е включена в данните за обучение на LLMS - особено ако моделите станат по -прецизни. „Лично аз нямам нищо против, ако чатбот пише в моя стил“, казва Баак. Но той признава, че професията му не е застрашена от разходите на LLM, като тази на други професии, като художници и писатели.
Индивидуалните научни автори понастоящем имат малко влияние, ако издателят на вашия документ продава достъп до вашите авторски права. Няма установени средства за публично достъпни статии, които да присвоят кредит или да знаят дали е използван текст.
Някои изследователи, включително De Montjoye, са разочаровани. "Искаме LLMS, но все пак искаме нещо, което е справедливо и мисля, че все още не сме измислили как изглежда", казва той.