Seu papel foi usado para treinar um modelo de IA? Provavelmente

Erfahren Sie mehr über die Auswirkungen des Verkaufs von Forschungsarbeiten an Technologieunternehmen zur Schulung von KI-Modellen und die Fragen, die sich daraus ergeben. Lesen Sie, wie akademische Verlage Daten an Technologiefirmen verkaufen und welche Bedenken dies bei Forschern hervorruft.
Saiba mais sobre os efeitos da venda de pesquisas para empresas de tecnologia para treinar modelos de IA e as perguntas que surgem. Leia como os editores acadêmicos vendem dados para empresas de tecnologia e o que diz respeito a isso que causa pesquisadores. (Symbolbild/natur.wiki)

Seu papel foi usado para treinar um modelo de IA? Provavelmente

>

Os editores de ciências vendem acesso ao trabalho de pesquisa a empresas de tecnologia para treinar modelos de inteligência artificial (IA). Alguns pesquisadores reagiram com consternação a acordos que ocorrem sem a consulta dos autores. A tendência levanta questões sobre o uso do trabalho publicado e às vezes protegido por direitos autorais para treinar o crescente número de chatbots da IA ​​em desenvolvimento.

Especialistas dizem que um artigo de pesquisa que ainda não foi usado para treinar um grande modelo de voz provavelmente será usado em breve. Os pesquisadores exploram oportunidades técnicas para os autores determinarem se seu conteúdo é usado.

No mês passado, foi anunciado que a editora de ciências britânicas Taylor & Francis, com sede em Milton Park, Grã -Bretanha, assinou um acordo de dez milhões de dólares com a Microsoft, que permite que a empresa de tecnologia dos EUA acesse os dados do editor para melhorar seus sistemas de IA. Em junho, uma atualização de investidores mostrou que a editora dos EUA Wiley ganhou US $ 23 milhões ao treinar modelos generativos de IA em seu conteúdo.

Tudo o que está disponível on-line--em um repositório de acesso aberto ou não foi "bastante" alimentado em um grande modelo de voz, diz Lucy Lu Wang, pesquisadora de IA da Universidade de Washington em Seattle. "E se um artigo já foi usado como dados de treinamento em um modelo, não há como remover este artigo depois de treinar o modelo", acrescenta ela.

Registros de dados maciços

LLMs são treinados em enormes quantidades de dados que geralmente são desviados da Internet. Eles determinam os padrões entre os bilhões de seções de voz nos dados de treinamento, para que os tokens chamados, o que lhes permite gerar textos com líquido incrível.

Os modelos de IA generativos dependem de pegar padrões dessas massas de dados para produzir textos, imagens ou código do computador. O trabalho científico é valioso para os desenvolvedores da LLM devido ao seu comprimento e "alta densidade de informação", diz Stefan Baack, que realiza a análise dos conjuntos de dados de treinamento de IA na Mozilla Foundation em São Francisco, Califórnia.

A tendência de comprar registros de dados de alta qualidade cresce. Este ano, o Financial Times tem seu material para

Segredos de informação

Alguns desenvolvedores de IA, como a rede de inteligência artificial em larga escala, mantêm deliberadamente seus registros de dados em aberto, mas muitas empresas que desenvolvem modelos generativos de IA mantiveram grande parte de seus dados de treinamento em segredo, diz Baack. "Não temos idéia do que é", diz ele. Os repositórios de código aberto como o ARXIV e o banco de dados científico PubMed são considerados fontes "muito populares", embora os artigos de periódicos de paywalled provavelmente sejam desviados por grandes empresas de tecnologia gratuitamente. "Você está sempre em busca de essas informações", acrescenta.

É difícil provar que um LLM usou um determinado artigo, diz Yves-Alexandre de Montjoye, cientista da computação do Imperial College London. Uma possibilidade é enfrentar o modelo com uma frase incomum de um texto e verificar se a saída corresponde às próximas palavras no original. Se for esse o caso, esse é um bom sinal de que o artigo está incluído no conjunto de treinamento. Caso contrário, isso não significa que o artigo não tenha sido usado - principalmente porque os desenvolvedores podem programar o LLM para filtrar as respostas para garantir que eles não correspondam aos dados de treinamento muito de perto. "É preciso muito para fazê -lo funcionar", diz ele.

Outro procedimento para verificar se os dados são incluídos em um conjunto de dados de treinamento é chamado de ataque de inferência de associação. Isso se baseia na ideia de que um modelo está confiante em sua edição quando vê algo que já viu antes. A equipe de Montjoyes desenvolveu uma versão chamada de direitos autorais para o LLMS.

Para colocar a armadilha, a equipe gera frases plausíveis, mas absurdas, e se esconde em um trabalho, por exemplo, como um texto branco em um fundo branco ou em um campo exibido em um site como uma largura zero. Se um LLM é "surpreso" por um conjunto de controle não utilizado -uma medida de sua confusão -mais do que a frase escondida no texto, "a evidência estatística de que as armadilhas foram vistas de antemão", diz ele.

Perguntas para direitos autorais

Mesmo que fosse possível provar que um LLM foi treinado em um texto específico, não está claro o que acontecerá a seguir. Os editores afirmam que o uso de textos protegidos por direitos autorais em treinamento sem licenciamento é considerado uma lesão. Mas um contra -argumento legal diz que o LLMS não copia - você extrai o conteúdo de informações dos dados de treinamento que são esmagados e usa seu conhecimento aprendido para gerar um novo texto.

Possivelmente um processo legal poderia ajudar a esclarecer isso. Em uma lei de consultoria nos EUA em andamento que poderia ser pioneira, o New York Times Microsoft e o desenvolvedor do ChatGPT, Openai, em San Francisco, Califórnia. O jornal acusa as empresas de usar seu conteúdo jornalístico sem permissão para treinar seus modelos.

Muitos acadêmicos estão felizes quando seu trabalho é incluído nos dados de treinamento do LLMS - especialmente se os modelos se tornarem mais precisos. "Pessoalmente, não me importo se um chatbot escrever no meu estilo", diz Baack. Mas ele admite que sua profissão não está ameaçada pelo gasto dos LLMs, como o de outras profissões, como artistas e escritores. Atualmente, os autores científicos individuais têm pouca influência se o editor do seu artigo vender acesso aos seus trabalhos protegidos por direitos autorais. Não há meios estabelecidos para artigos disponíveis ao público para atribuir um crédito ou saber se um texto foi usado.

Alguns pesquisadores, incluindo De Montjoye, estão frustrados. "Queremos LLMs, mas ainda queremos algo justo, e acho que ainda não inventamos como é", diz ele.