AI скоро ще поеме проекти, които ще струват на хората седмици

AI скоро ще поеме проекти, които ще струват на хората седмици
; "https://www.nature.com/articles/d41586-025-00649-4" Data-track-category = "Text Text Link"> Rapid и би могъл да затвори празнината по-бързо от много очаквани, според анализ на водещи модели 1Нестопанската организация Metreley, Калифорния, разработи почти 170 реални задачи в областта на програмирането, киберсигурността, общото мислене и механичното обучение и след това определи "човешка основна линия", като отдели време, което се нуждае от експертите, за да изпълнят тези задачи.
Екипът след това разработи ключова фигура за оценка на напредъка на AI модели , която се нарича" Задачи на времето, времеви хоризонт ". Това е времето, в което програмистите обикновено трябва да изпълняват задачите, могат да вършат AI моделите с определена успеваемост.
В предварителна част, публикувана тази седмица в Arxiv съобщава, че GPT-2, ранен голям гласов модел (LLM), който е публикуван от Openai през 2019 г., се провали във всички задачи, които човешките експерти струват повече от минута. Claude 3.7 Sonnet, който беше пуснат от антропика на САЩ за стартиране през февруари, изпълни 50 % от задачите, които хората ще отнемат 59 минути.
Като цяло, времевият хоризонт на 13 -те водещи модели AI се е удвоил на всеки седем месеца от 2019 г., според проучването. Експоненциалният растеж на времевите хоризонти на AI се ускори през 2024 г., като най -новите модели удвояват хоризонтите си на всеки три месеца. Работата все още не е официално разгледана.
В напредъка от 2019 г. до 2024 г. Metr предполага, че AI моделите могат да управляват задачи до 2029 г., от които хората се нуждаят от около месец, с надеждност от 50 %, вероятно дори по -рано.
месец ангажиран човешки опит, според документа, може да бъде достатъчен, за да започне нова компания или да направи научни открития.
Джошуа Ганс, професор по мениджмънт в Университета в Торонто в Канада, който пише за икономиката на AI, обяснява, че подобни прогнози не са особено полезни. "Екстраполациите са изкушаващи, но все още има толкова много, че не знаем как AI всъщност се използва, така че тези прогнози да имат смисъл", казва той.
Оценка на човека срещу Ki
Екипът избра степента на успех от 50 %, тъй като беше най -здрав в сравнение с малки промени в разпределението на данните. "Ако изберете много ниски или много високи прагови стойности, добавяте или премахнете един успешен или неуспешен променлив задача Прогнозата според", обяснява Co -Author Lawrence Chan.
Увеличаването на надеждността от 50 % до 80 % намалява средния времеви хоризонт с фактор пет - въпреки че общото време за удвояване и линията на тренда са сходни.
In the past five years, the improvements of the General skills of LLMS главно задвижвани от мащаба увеличава количеството данни за обучение, времето за обучение и броя на параметрите на модела. Документът води напредъка в ключовата фигура на времевия хоризонт главно до подобряване на логическия аргумент, използването на инструменти, корекция на грешки и самоувереността в изпълнението на задачите.
; Той предлага непрекъсната, интуитивна мярка, която по -добре записва значителен напредък за по -дълъг период от време, казва Mitautor Ben West.Водещи модели на AI постигат свръхчовешки производителност на много Антон Тройников, изследовател на ИИ и предприемач от Сан Франциско, Калифорния, обяснява, че AI ще има по -голямо икономическо влияние, ако организациите са по -готови да експериментират и да инвестират в ефективно използване на моделите.
-
kwa, t. et al. Предварителна част от Arxiv https://doi.org/10.48550/arxiv.2503.14499 (2025).