Google presenta marcas de agua invisibles para textos generados por IA

Google Deepmind ha desarrollado una marca de agua invisible para textos generados por IA para combatir información falsa.
(Symbolbild/natur.wiki)

Google presenta marcas de agua invisibles para textos generados por IA

Los investigadores de Google Deepmind en Londres han desarrollado una "marca de agua" para identificar el texto generado por la inteligencia artificial (IA). Esto ya se ha utilizado en millones de usuarios de chatbot.

La marca de agua que se publicó el 23 de octubre en la revista Nature 1 No es la primera que se crea para generar AI. Sin embargo, es el primero en demostrar en un gran contexto real. Aaronson, científico informático de la Universidad de Texas en Austin, que trabajó en marcas de agua en Openai hasta agosto, los creadores de Chatt, con sede en San Francisco, California.

La detección de textos generados por IA se está volviendo cada vez más importante porque tiene una solución potencial para los problemas de Noticias falsas y Fraude académico . In addition, it could help to to protect future models from devaluation by not being trained with Contenido generado por IA .

En un estudio extenso, los usuarios del Modelo de lenguaje grande de Google Gemini (LLM) evaluaron en 20 millones de respuestas textos marcados con agua como equivalente con textos sin marcar. "Estoy entusiasmado al ver que Google está dando este paso para la comunidad tecnológica", dice Furong Huang, científico informático de la Universidad de Maryland en College Park. "Es probable que la mayoría de las herramientas comerciales contengan marcas de agua en el futuro cercano", agregó Zakhar Shumaylov, científico informático de la Universidad de Cambridge, Reino Unido.

elección de palabras

Es más difícil aplicar una marca de agua al texto que a las imágenes, ya que la elección de las palabras es esencialmente la única variable que se puede cambiar. Deepmind calló los cambios de texto Synthid que las palabras elige el modelo, de una manera secreta pero fórmula que se puede registrar con una clave criptográfica. En comparación con otros enfoques, la marca de agua de Deepmind es un poco más fácil de reconocer, y la aplicación no retrasa la posición del texto. "Parece que excede los conceptos de competidores en las marcas de agua de LLMS", dice Shumaylov, ex empleado y hermano de uno de los autores del estudio.

La herramienta también se reveló para que los desarrolladores puedan aplicar su propia marca de agua a sus modelos. "Esperamos que otros desarrolladores de modelos de IA tomen esto e los integren en sus propios sistemas", dice Pushmeet Kohli, científico informático de Deepmind. Google mantiene su clave en secreto para que los usuarios no puedan usar herramientas de detección para identificar el texto con marca de agua del modelo Gemini.

gobiernos en un marketing de agua para una solución de agua de AI para una solución de agua AI de AI de la Solución de AI de AI de AI de AI de AI de AI de AI de AI. texto . Sin embargo, hay muchos problemas, incluida la obligación de los desarrolladores de usar marcas de agua y la coordinación de sus enfoques. A principios de este año, los investigadores de la tecnología federal de Zurich mostraron que , un proceso que se conoce como "fregado" o "falsificación", en el que las marcas de agua se aplican a los textos para dar la impresión incorrecta de que están generadas por KI.

tournament de token

El enfoque de DeepMinds se basa en un Un LLM es una red de asociaciones construidas por capacitación con miles de millones de palabras o partes conocidas como tokens. Cuando se ingresa un texto, el modelo muestra cada token en su vocabulario una probabilidad de ser la siguiente palabra en la oración. La tarea del algoritmo de muestreo es seleccionar qué tokens debe usarse de acuerdo con una serie de reglas.

El algoritmo de muestreo de texto Synthid utiliza una clave criptográfica para asignar valores aleatorios a cada token posible. Los boletos candidatos son proporcionales a su probabilidad de distribución y clasificadas en un "torneo". Allí, el algoritmo compara los valores en una serie de ronda de unas y one-k.o., por lo que el valor más alto gana hasta que solo queda un token que se selecciona para el texto.

Este método sofisticado hace que sea más fácil detectar la marca de agua, ya que el mismo código criptográfico se aplica al texto generado para buscar los valores altos que indican tokens "ganadores". Esto también podría dificultar la distancia.

Las varias rondas en el torneo pueden verse como una combinación de bloqueo, en la que cada ronda representa un número diferente que debe resolverse para desbloquear o eliminar la marca de agua, dice Huang. "Este mecanismo hace que sea considerablemente más difícil fregarse, espolear o desarrollar la marca de agua", agrega. Para textos con alrededor de 200 tokens, los autores mostraron que aún podían reconocer la marca de agua, incluso si se usara un segundo LLM para reescribir el texto. Con textos más cortos, la marca de agua es menos robusta.

Los investigadores no han examinado qué tan bien la marca de agua es resistente a los intentos deliberados de eliminar. La resistencia de las marcas de agua contra tales ataques es una "cuestión política masiva", dice Yves-Alexandre de Montjoye, científico informático del Imperial College London. "En el contexto de la seguridad de la IA, no está claro en qué medida esto ofrece protección", explica.

Kohli espera que la marca de agua inicialmente ayude a apoyar el uso bien intencionado de LLM. "La filosofía guía era que queríamos desarrollar una herramienta que la comunidad pueda mejorar", agrega.

  1. datthri, S. et al. Nature 634, 818–823 (2024).

  2. Descargar referencias