¿Los modelos de IA producen ideas más originales que los investigadores?

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Un nuevo estudio muestra que los modelos de IA pueden generar más ideas de investigación originales que 50 científicos. Los expertos evalúan estos enfoques.

Eine neue Studie zeigt, dass KI-Modelle mehr originelle Forschungsideen generieren können als 50 Wissenschaftler. Experten bewerten diese Ansätze.
Un nuevo estudio muestra que los modelos de IA pueden generar más ideas de investigación originales que 50 científicos. Los expertos evalúan estos enfoques.

¿Los modelos de IA producen ideas más originales que los investigadores?

Un sistema generador de ideas impulsado por inteligencia artificial (IA) ha desarrollado enfoques de investigación más originales que 50 científicos que trabajan de forma independiente en una preimpresión reciente en arXiv. 1.

Las ideas generadas por humanos y por IA fueron evaluadas por revisores que no sabían quién o qué creó cada idea. Los revisores calificaron los conceptos generados por la IA como más interesantes en comparación con las ideas de autor humano, aunque las sugerencias de la IA obtuvieron una puntuación ligeramente inferior en términos de viabilidad.

Sin embargo, los científicos señalan que el estudio, que aún no ha sido revisado por pares, tiene limitaciones. Se centró en un área específica de investigación y requirió que los participantes humanos generaran ideas de forma espontánea, lo que probablemente obstaculizó su capacidad para producir los mejores conceptos.

Inteligencia artificial en la ciencia

Hay aspiraciones crecientes, para investigar cómo se pueden utilizar modelos de lenguaje grandes (LLM) para automatizar tareas de investigación como Escribir artículos, Generar código y investigación literaria se puede utilizar. Sin embargo, ha sido difícil evaluar si estas herramientas de IA pueden generar nuevos enfoques de investigación a un nivel similar al de los humanos. Esto se debe a que la evaluación de ideas muy subjetivo y requiere especialistas que sean capaces de evaluarlos cuidadosamente, dice Chenglei Si, coautor del estudio e informático de la Universidad de Stanford en California. "La mejor manera de contextualizar dichas capacidades es hacer una comparación lado a lado", dice Si.

El proyecto de un año de duración es uno de los mayores esfuerzos para evaluar si los grandes modelos de lenguaje (la tecnología detrás de herramientas como ChatGPT – puede producir enfoques de investigación innovadores, explica Tom Hope, informático del Instituto Allen de IA en Jerusalén. "Es necesario que haya más trabajos como este", afirma.

El equipo reclutó a más de 100 investigadores en el campo del procesamiento del lenguaje natural, una rama de la informática que se ocupa de la comunicación entre la IA y los humanos. A cuarenta y nueve participantes se les encomendó la tarea de desarrollar y formular ideas en diez días basadas en uno de siete temas. Como incentivo, los investigadores recibieron 300 dólares por cada idea, con un bono de 1.000 dólares por las cinco ideas principales.

Al mismo tiempo, los investigadores desarrollaron un generador de ideas utilizando Claude 3.5, un LLM desarrollado por Anthropic en San Francisco, California. Los investigadores pidieron a su herramienta de inteligencia artificial que encontrara artículos relevantes sobre los siete temas de investigación a través de Semantic Scholar, un motor de búsqueda de literatura impulsado por inteligencia artificial. A partir de estos artículos, los investigadores pidieron a su agente de inteligencia artificial que generara 4.000 ideas sobre cada tema de investigación y evaluara las más originales.

Evaluadores humanos

Luego, los investigadores asignaron aleatoriamente las ideas generadas por humanos y por IA a 79 revisores, quienes calificaron cada idea según su novedad, entusiasmo, viabilidad y efectividad esperada. Para garantizar que los creadores de las ideas siguieran siendo desconocidos para los revisores, los investigadores utilizaron otro LLM para editar ambos tipos de texto de modo que el estilo y el tono de escritura se estandarizaran sin cambiar las ideas en sí.

En promedio, los revisores calificaron las ideas generadas por la IA como más originales y emocionantes que las escritas por participantes humanos. Sin embargo, cuando observaron más de cerca las 4.000 ideas producidas por LLM, los investigadores encontraron sólo unas 200 que eran verdaderamente únicas, lo que sugiere que la IA se volvía menos original cuantas más ideas generaba.

Cuando Si encuestó a los participantes, la mayoría admitió que las ideas que presentaron eran sólo promedio en comparación con las ideas producidas en el pasado.

Los resultados sugieren que los LLM pueden generar fácilmente ideas más originales que la literatura existente, afirma Cong Lu, investigador de aprendizaje automático de la Universidad de Columbia Británica en Vancouver, Canadá. Sin embargo, sigue siendo una cuestión abierta si podrán superar las ideas humanas más innovadoras.

Otra limitación del estudio es que las ideas escritas comparadas fueron editadas por un LLM, lo que cambió el idioma y la extensión de las presentaciones, dice Jevin West, científico informático de ciencias sociales de la Universidad de Washington en Seattle. Estos cambios pueden haber influido sutilmente en cómo los críticos percibieron la novedad, añade. West añade que enfrentar a los investigadores con un LLM que puede generar miles de ideas en unas pocas horas puede no ser una comparación completamente justa. "Hay que comparar manzanas con manzanas", dice.

Si y sus colegas planean comparar ideas generadas por IA con artículos de conferencias líderes para comprender mejor cómo se comparan los LLM con la creatividad humana. "Estamos tratando de alentar a la comunidad a pensar más profundamente sobre cómo debería ser el futuro cuando la IA pueda asumir un papel más activo en el proceso de investigación", dice.

  1. Si, C., Yang, D. y Hashimoto, T. Preimpresión en arXiv https://doi.org/10.48550/arXiv.2409.04109 (2024).

Descargar referencias

Quellen: