L'IA reprendra bientôt des projets qui coûteront des semaines aux gens

L'IA reprendra bientôt des projets qui coûteront des semaines aux gens
Les systèmes actuels d'intelligence artificielle (AI) ne peuvent pas dépasser les personnes sur de longues tâches, cependant, Rapid et aurait pu combler l'écart plus rapidement que beaucoup attend "Références"> 1 .
L'organisation sans but lucratif Metreley, en Californie, a développé près de 170 tâches réelles dans les domaines de la programmation, de la cybersécurité, de la pensée générale et de l'apprentissage mécanique, puis a déterminé une "ligne de base humaine" en prenant du temps qui nécessitait les experts pour effectuer ces tâches.
L'équipe a ensuite développé une figure clé pour évaluer la progression de Modèles AI , qui s'appelle les" Tâches du temps, Horizon Time ". C'est le moment où les programmeurs ont généralement besoin de terminer les tâches, peuvent faire les modèles d'IA avec un certain taux de réussite.
Dans une préimpression publiée cette semaine dans Arxiv rapporte que GPT-2, un premier modèle de grande voix (LLM), publié par OpenAI en 2019, a échoué dans toutes les tâches que les experts humains coûtent plus d'une minute. Claude 3.7 Sonnet, qui a été publié par la start-up américaine Anthropic en février, a effectué 50% des tâches que les gens prendraient 59 minutes.
Dans l'ensemble, l'horizon temporel des 13 modèles d'IA principaux a doublé tous les sept mois depuis 2019, selon l'étude. La croissance exponentielle des horizons temporels de l'IA s'est accélérée en 2024, les derniers modèles doublent leurs horizons tous les trois mois. Les travaux n'ont pas encore été officiellement examinés.
Dans les progrès de 2019 à 2024, METR suggère que les modèles d'IA peuvent gérer les tâches d'ici 2029 que les gens ont besoin d'environ un mois, avec une fiabilité de 50%, peut-être même plus tôt.
Un mois d'expertise humaine engagée, selon le journal, peut être suffisante pour démarrer une nouvelle entreprise ou faire des découvertes scientifiques.
Joshua Gans, professeur de gestion à l'Université de Toronto au Canada, qui a écrit sur l'économie de l'IA, explique que ces prédictions ne sont pas particulièrement utiles. "Les extrapolations sont tentantes, mais il y a encore tellement de choses que nous ne savons pas comment l'IA est réellement utilisée afin que ces prédictions aient un sens", dit-il.
Évaluation de l'homme contre Ki
L'équipe a choisi le taux de réussite de 50% car il était le plus robuste par rapport aux petits changements dans la distribution des données. "Si vous choisissez des valeurs de seuil très faibles ou très élevées, en ajoutant ou en supprimant une seule tâche réussie ou échouée modifie l'estimation selon", explique le co-auteur Lawrence Chan.
Une augmentation de la fiabilité de 50% à 80% a réduit l'horizon de temps moyen d'un facteur de cinq - bien que le temps de doublement général et la ligne de tendance soient similaires.
Au cours des cinq dernières années, les améliorations du Anton Troynikov, chercheur et entrepreneur de l'IA de San Francisco, en Californie, explique que l'IA aurait une plus grande influence économique si les organisations étaient mieux disposées à expérimenter et à investir dans une utilisation efficace des modèles.
-
Kwa, T. et al. Preprint à arXiv (2025).