L'IA prendra bientôt en charge des projets qui prennent des semaines aux humains
L’intelligence artificielle s’améliore rapidement et pourrait bientôt se lancer dans des projets qui prennent des semaines aux humains. L’analyse des experts montre que les principaux modèles d’IA progressent et pourraient accomplir des tâches avec l’expertise humaine en moins de temps d’ici 2029.

L'IA prendra bientôt en charge des projets qui prennent des semaines aux humains
Les systèmes d'intelligence artificielle (IA) d'aujourd'hui ne peuvent pas surpasser les humains sur de longues tâches, mais ils évoluent rapidement plus loin et pourrait réduire l’écart plus rapidement que prévu, selon une analyse des principaux modèles 1.
Le METR, une organisation à but non lucratif basée à Berkeley, en Californie, a développé près de 170 tâches du monde réel dans les domaines de la programmation, de la cybersécurité, du raisonnement général et de l'apprentissage automatique, puis a établi une « référence humaine » en mesurant le temps nécessaire aux experts pour accomplir ces tâches.
L'équipe a ensuite développé une mesure pour évaluer les progrès de Modèles d'IA, appelé « horizon temporel d’achèvement des tâches ». C'est le temps qu'il faut généralement aux programmeurs pour accomplir les tâches que les modèles d'IA peuvent accomplir avec un certain taux de réussite.
Dans une prépublication publiée cette semaine sur arXiv, METR rapporte que GPT-2, un des premiers grands modèles de langage (LLM) publié par OpenAI en 2019, a échoué dans toutes les tâches qui prenaient plus d'une minute aux experts humains. Claude 3.7 Sonnet, lancé en février par la startup américaine Anthropic, a réalisé 50 % des tâches qui prendraient 59 minutes à un humain.
Dans l’ensemble, l’horizon temporel des 13 principaux modèles d’IA a doublé environ tous les sept mois depuis 2019, selon l’étude. La croissance exponentielle des horizons temporels de l’IA s’est accélérée en 2024, les derniers modèles doublant leur horizon environ tous les trois mois. Le travail n’a pas encore été formellement examiné.
Entre 2019 et 2024, METR suggère que les modèles d’IA seront capables d’accomplir des tâches qui prennent environ un mois aux humains avec une fiabilité de 50 % d’ici 2029, peut-être même plus tôt.
Un mois d'expertise humaine dédiée, suggère l'article, peut suffire pour démarrer une nouvelle entreprise ou faire des découvertes scientifiques.
Cependant, Joshua Gans, professeur de gestion à l'Université de Toronto au Canada qui a écrit sur l'économie de l'IA, explique que de telles prédictions ne sont pas particulièrement utiles. « Les extrapolations sont tentantes, mais il reste encore beaucoup de choses que nous ignorons sur la manière dont l’IA sera réellement utilisée pour donner un sens à ces prédictions », dit-il.
Juger les humains par rapport à l’IA
L'équipe a choisi le taux de réussite de 50 % car il était le plus résistant aux petits changements dans la distribution des données. "Si vous choisissez des seuils très bas ou très élevés, l'ajout ou la suppression d'une seule tâche réussie ou échouée modifie considérablement l'estimation", explique le co-auteur Lawrence Chan.
L'augmentation de la fiabilité de 50 % à 80 % a réduit l'horizon temporel moyen d'un facteur cinq, même si le temps de doublement global et la ligne de tendance étaient similaires.
Au cours des cinq dernières années, des améliorations ont été apportées à compétences générales des LLM principalement dû à l'augmentation de l'échelle : la quantité de données d'entraînement, le temps d'entraînement et le nombre de paramètres du modèle. L'article attribue les progrès dans la mesure de l'horizon temporel principalement aux améliorations du raisonnement logique, de l'utilisation des outils, de la correction des erreurs et de la confiance dans les tâches.
L'approche du METR pour évaluer les horizons temporels aborde certaines des limites des références d'IA existantes, qui ne correspondent que vaguement au travail du monde réel et deviennent rapidement « saturées » à mesure que les modèles s'améliorent. Il fournit une mesure continue et intuitive qui rend mieux compte des progrès significatifs au fil du temps, explique le co-auteur Ben West.
Les principaux modèles d’IA atteignent des performances surhumaines dans de nombreux domaines Tests de référence, mais ont eu jusqu’à présent relativement peu d’impact économique, explique West. Les dernières recherches du METR offrent une réponse partielle à cette énigme : les meilleurs modèles affichent un laps de temps d'environ 40 minutes, et il n'y a pas beaucoup de travail économiquement intéressant qu'une personne puisse effectuer pendant cette période, a déclaré West.
Cependant, Anton Troynikov, chercheur en IA et entrepreneur de San Francisco, en Californie, explique que l'IA aurait un impact économique plus important si les organisations étaient plus disposées à expérimenter et à investir dans une utilisation efficace des modèles.
-
Kwa, T. et al. Préimpression sur arXiv https://doi.org/10.48550/arXiv.2503.14499 (2025).