La IA pronto se hará cargo de proyectos que a los humanos les llevan semanas

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

La inteligencia artificial está mejorando rápidamente y pronto podría asumir proyectos que a los humanos les lleva semanas completar. El análisis de expertos muestra que los principales modelos de IA están progresando y podrían completar tareas con experiencia humana en menos tiempo para 2029.

Künstliche Intelligenz verbessert sich rasant und könnte bald Projekte übernehmen, für die Menschen Wochen benötigen. Expertenanalysen zeigen, dass führende KI-Modelle im Fortschritt sind und bis 2029 Aufgaben mit menschlicher Expertise in kürzerer Zeit bewältigen könnten.
La inteligencia artificial está mejorando rápidamente y pronto podría asumir proyectos que a los humanos les lleva semanas completar. El análisis de expertos muestra que los principales modelos de IA están progresando y podrían completar tareas con experiencia humana en menos tiempo para 2029.

La IA pronto se hará cargo de proyectos que a los humanos les llevan semanas

Los sistemas de inteligencia artificial (IA) actuales no pueden superar a los humanos en tareas largas, pero están evolucionando rápidamente más y podría cerrar la brecha más rápido de lo que muchos esperaban, según un análisis de los principales modelos 1.

METR, una organización sin fines de lucro con sede en Berkeley, California, desarrolló casi 170 tareas del mundo real en programación, ciberseguridad, razonamiento general y aprendizaje automático, y luego estableció una "línea de base humana" midiendo el tiempo que les tomó a los expertos completar esas tareas.

Luego, el equipo desarrolló una métrica para evaluar el progreso de Modelos de IA, que se denomina "horizonte de tiempo para completar la tarea". Este es el tiempo que normalmente les toma a los programadores completar las tareas que los modelos de IA pueden completar con una cierta tasa de éxito.

En una preimpresión publicada esta semana en arXiv, METR informa que GPT-2, uno de los primeros modelos de lenguaje grande (LLM) lanzado por OpenAI en 2019, falló en todas las tareas que tomaron a los expertos humanos más de un minuto. Claude 3.7 Sonnet, lanzado en febrero por la startup estadounidense Anthropic, completó el 50% de las tareas que a los humanos les llevarían 59 minutos.

En general, el horizonte temporal de los 13 principales modelos de IA se ha duplicado aproximadamente cada siete meses desde 2019, según el estudio. El crecimiento exponencial de los horizontes temporales de la IA se aceleró en 2024, y los últimos modelos duplicaron su horizonte aproximadamente cada tres meses. El trabajo aún no ha sido revisado formalmente.

De 2019 a 2024, METR sugiere que los modelos de IA podrán completar tareas que a los humanos les llevan alrededor de un mes con un 50% de confiabilidad para 2029, tal vez incluso antes.

Un mes de experiencia humana dedicada, sugiere el artículo, puede ser suficiente para iniciar una nueva empresa o hacer descubrimientos científicos.

Sin embargo, Joshua Gans, profesor de gestión de la Universidad de Toronto en Canadá, que ha escrito sobre la economía de la IA, explica que tales predicciones no son particularmente útiles. "Las extrapolaciones son tentadoras, pero todavía hay muchas cosas que no sabemos sobre cómo se utilizará realmente la IA para que estas predicciones tengan sentido", afirma.

Juzgando a los humanos versus la IA

El equipo eligió la tasa de éxito del 50 % porque era más resistente a pequeños cambios en la distribución de datos. "Si elige umbrales muy bajos o muy altos, agregar o eliminar una sola tarea exitosa o fallida cambia en gran medida la estimación", explica el coautor Lawrence Chan.

El aumento de la confiabilidad del 50 % al 80 % redujo el horizonte temporal promedio en un factor de cinco, aunque el tiempo general de duplicación y la línea de tendencia fueron similares.

En los últimos cinco años se han realizado mejoras en la habilidades generales de los LLM impulsado principalmente por aumentos en la escala: la cantidad de datos de entrenamiento, el tiempo de entrenamiento y la cantidad de parámetros del modelo. El artículo atribuye el progreso en la métrica del horizonte temporal principalmente a mejoras en el razonamiento lógico, el uso de herramientas, la corrección de errores y la confianza en las tareas.

El enfoque de METR para evaluar los horizontes temporales aborda algunas de las limitaciones de los puntos de referencia de IA existentes, que sólo coinciden vagamente con el trabajo del mundo real y rápidamente se "saturan" a medida que los modelos mejoran. Proporciona una medida continua e intuitiva que captura mejor el progreso significativo a lo largo del tiempo, afirma el coautor Ben West.

Los principales modelos de IA logran un rendimiento sobrehumano en muchos Pruebas de referencia, pero hasta ahora han tenido un impacto económico relativamente pequeño, explica West. La última investigación de METR ofrece una respuesta parcial a este enigma: los mejores modelos muestran un período de tiempo de aproximadamente 40 minutos, y no hay mucho trabajo económicamente valioso que una persona pueda hacer en ese tiempo, dijo West.

Sin embargo, Anton Troynikov, investigador y empresario de IA de San Francisco, California, explica que la IA tendría un mayor impacto económico si las organizaciones estuvieran más dispuestas a experimentar e invertir en el uso eficaz de los modelos.

  1. Kwa, T. y col. Preimpresión en arXiv https://doi.org/10.48550/arXiv.2503.14499 (2025).

Descargar referencias

Quellen: