¿Se usó su trabajo para entrenar un modelo de IA? Lo más probable

¿Se usó su trabajo para entrenar un modelo de IA? Lo más probable
Los editores de ciencias venden acceso a trabajos de investigación a empresas de tecnología para capacitar a los modelos de inteligencia artificial (IA). Algunos investigadores reaccionaron con consternación a tales acuerdos que tienen lugar sin la consulta de los autores. La tendencia plantea preguntas sobre el uso del trabajo publicado y, a veces, con derechos de autor para capacitar el creciente número de chatbots de IA en el desarrollo.
Los expertos dicen que un trabajo de investigación que aún no se ha utilizado para entrenar un modelo de voz grande probablemente se utilizará pronto. Los investigadores exploran oportunidades técnicas para que los autores determinen si se utiliza su contenido.
El mes pasado se anunció que el editor de ciencias británico Taylor & Francis, con sede en Milton Park, Gran Bretaña, firmó un acuerdo de diez millones de dólares estadounidenses con Microsoft, lo que permite a la compañía de tecnología estadounidense acceder a los datos del editor para mejorar sus sistemas de IA. En junio, una actualización del inversor mostró que el editor de los Estados Unidos Wiley ganó $ 23 millones permitidos para capacitar modelos de IA generativos en su contenido.Todo lo que está disponible en línea, ya sea en un repositorio de acceso abierto o no ha sido "bastante" alimentado en un modelo de voz grande, dice Lucy Lu Wang, investigadora de IA en la Universidad de Washington en Seattle. "Y si un documento ya se ha utilizado como datos de entrenamiento en un modelo, no hay forma de eliminar este documento después de entrenar al modelo", agrega.
registros de datos masivos
LLMS está capacitado en grandes cantidades de datos que a menudo se desprenden de Internet. Determinan patrones entre los miles de millones de secciones de voz en los datos de entrenamiento, así que tokens llamados, lo que les permite generar textos con un líquido sorprendente.
Los modelos de IA generativos se basan en tomar patrones de estas masas de datos para generar textos, imágenes o código de computadora. El trabajo científico es valioso para los desarrolladores de LLM debido a su longitud y "alta densidad de información", dice Stefan Baack, quien lleva a cabo el análisis de conjuntos de datos de entrenamiento de IA en la Fundación Mozilla en San Francisco, California.
La tendencia a comprar registros de datos de alta calidad crece. Este año, el Financial Times tiene su material para ofrecido en un acuerdo lucrativo, así como en el foro en línea reddit a Google. Y dado que los editores científicos probablemente consideran la alternativa como un esquimador no autorizado de su trabajo, "creo que más de este tipo son inminentes", dice Wang.
Secretos de información
Algunos desarrolladores de IA, como la red de inteligencia artificial a gran escala, mantienen abiertos sus registros de datos, pero muchas compañías que desarrollan modelos de IA generativos han mantenido una gran parte de sus datos de capacitación en secreto, dice Baack. "No tenemos idea de qué es", dice. Los repositorios de código abierto, como ARXIV y la base de datos científica, PubMed se consideran fuentes "muy populares", aunque es probable que los artículos de revistas con paredes pagos sean escabricados por grandes compañías de tecnología de forma gratuita. "Siempre estás buscando tal información", agrega.
Es difícil demostrar que un LLM ha usado un cierto artículo, dice Yves-Alexandre de Montjoye, un científico informático del Imperial College London. Una posibilidad es enfrentar el modelo con una oración inusual de un texto y verificar si la salida coincide con las siguientes palabras en el original. Si este es el caso, esta es una buena señal de que el papel está incluido en el conjunto de capacitación. Si no, esto no significa que el documento no se haya utilizado, sobre todo porque los desarrolladores pueden programar el LLM para filtrar las respuestas para garantizar que no coincidan demasiado con los datos de capacitación. "Se necesita mucho para que funcione", dice.
Otro procedimiento para verificar si los datos se incluyen en un conjunto de datos de capacitación se denomina ataque de inferencia de membresía. Esto se basa en la idea de que un modelo confía en su edición cuando ve algo que ha visto antes. El equipo de Montjoyes ha desarrollado una versión llamada Copyright Trap para LLMS.
Para poner la trampa, el equipo genera oraciones y se esconde en un trabajo plausible pero sin sentido, por ejemplo, como un texto blanco sobre un fondo blanco o en un campo que se muestra en un sitio web como un ancho cero. Si un LLM está "sorprendido" por un conjunto de control no utilizado, una medida de su confusión, más que la oración oculta en el texto ", la evidencia estadística de que las trampas se han visto de antemano", dice.
Preguntas de derechos de autor
Incluso si fuera posible demostrar que un LLM fue entrenado en un texto específico, no está claro qué sucederá después. Los editores afirman que el uso de textos con derechos de autor en capacitación sin licencias se considera una lesión. Pero un contra -argumento legal dice que LLMS no copia: usted extrae contenido de información de los datos de capacitación que se aplastan y usa su conocimiento aprendido para generar un nuevo texto.
Posiblemente un procedimiento legal podría ayudar a aclarar esto. En una ley de consultoría estadounidense en curso que podría ser pionera, The New York Times Microsoft y el desarrollador de Chatgpt, OpenAi, en San Francisco, California. El periódico acusa a las empresas de usar su contenido periodístico sin permiso para capacitar a sus modelos.
Muchos académicos están contentos cuando su trabajo se incluye en los datos de capacitación de LLMS, especialmente si los modelos se vuelven más precisos. "Personalmente, no me importa si un chatbot escribe en mi estilo", dice Baack. Pero admite que su profesión no está amenazada por el gasto de los LLM, como el de otras profesiones, como artistas y escritores.
Los autores científicos individuales actualmente tienen poca influencia si el editor de su artículo vende acceso a sus trabajos con derechos de autor. No hay medios establecidos para artículos disponibles públicamente para asignar un crédito o saber si se ha utilizado un texto.
Algunos investigadores, incluido de Montjoye, están frustrados. "Queremos LLM, pero aún queremos algo que sea justo, y creo que aún no hemos inventado cómo se ve", dice.