AI pronto se hará cargo de proyectos que le costarán a la gente semanas

AI pronto se hará cargo de proyectos que le costarán a la gente semanas
Los sistemas actuales de inteligencia artificial (AI) no pueden exceder a las personas en tareas largas, sin embargo, Rapid y podría haber cerrado la brecha más rápido de lo que muchos esperados, según un análisis de los modelos principales .
La organización sin fines de lucro Metreley, California, desarrolló casi 170 tareas reales en las áreas de programación, seguridad cibernética, pensamiento general y aprendizaje mecánico y luego determinó una "línea de base humana" al tomar un tiempo que necesitaba a los expertos para completar estas tareas. El equipo luego desarrolló una figura clave para evaluar el progreso de modelos ai , que se llama" tareas del tiempo, horizonte de tiempo ". Este es el momento en que los programadores generalmente necesitan completar las tareas, pueden hacer los modelos de IA con una cierta tasa de éxito. En una preimpresión publicada esta semana en ARXIV informa que GPT-2, un modelo de voz grande (LLM) temprano, que fue publicado por OpenAI en 2019, falló en todas las tareas que los expertos humanos cuestan más de un minuto. Claude 3.7 Sonnet, que fue lanzado por la nueva empresa de EE. UU. Anthrope en febrero, completó el 50 % de las tareas que las personas tomarían 59 minutos. En general, el horizonte temporal de los 13 modelos de IA principales se ha duplicado cada siete meses desde 2019, según el estudio. El crecimiento exponencial de los horizontes de AI se aceleró en 2024, con los últimos modelos duplicar sus horizontes cada tres meses. El trabajo aún no ha sido examinado formalmente. En el progreso de 2019 a 2024, METR sugiere que los modelos de IA pueden administrar tareas para 2029 que las personas necesitan alrededor de un mes, con una confiabilidad del 50 %, posiblemente incluso antes. Un mes de experiencia humana comprometida, según el documento, puede ser suficiente para comenzar una nueva empresa o hacer descubrimientos científicos. Joshua Gans, profesor de gestión de la Universidad de Toronto en Canadá, quien escribió sobre la economía de la IA, explica que tales predicciones no son particularmente útiles. "Las extrapolaciones son tentadoras, pero todavía hay tanto que no sabemos cómo se usa realmente la IA para que estas predicciones tengan sentido", dice. Evaluación de humano versus ki El equipo eligió la tasa de éxito del 50 %porque era más robusto en comparación con pequeños cambios en la distribución de datos. "Si elige valores de umbral muy bajos o muy altos, agregando o eliminando un solo cambio de tarea exitoso o fallido de acuerdo con", explica el co -autor Lawrence Chan. Un aumento en la confiabilidad del 50 % al 80 % redujo el horizonte temporal promedio en un factor de cinco, aunque el tiempo de duplicación general y la línea de tendencia fueron similares. En los últimos cinco años, las mejoras de
Los modelos AI líderes logran un rendimiento sobrehumano en muchos Anton Troynikov, investigador de IA y empresario de San Francisco, California, explica que la IA tendría una mayor influencia económica si las organizaciones estuvieran mejor dispuestas a experimentar e invertir en el uso efectivo de los modelos. kwa, T. et al. Preimpresión en arxiv " https://doi.org/10.48550/arxiv.2503.14499 (2025).