AI скоро ще поеме проекти, които отнемат хората седмици
Изкуственият интелект се подобрява бързо и скоро може да поеме проекти, които отнемат на хората седмици. Експертен анализ показва, че водещите модели на AI постигат напредък и могат да изпълняват задачи с човешки опит за по -малко време до 2029 г.

AI скоро ще поеме проекти, които отнемат хората седмици
Днешните системи за изкуствен интелект (AI) не могат да превъзхождат хората при дълги задачи, но те се развиват бързо по -нататък и може да затвори разликата по -бързо от очакваното, според анализ на водещи модели 1.
Базираният в Беркли, базиран в Калифорния метъл на нестопанска цел разработи близо 170 задачи в реалния свят в програмирането, киберсигурността, общите разсъждения и машинното обучение, след което създаде „човешка базова линия“, като измерва времето, на което са необходими експерти, за да изпълнят тези задачи.
След това екипът разработи показател за оценка на напредъка на AI модели, който се нарича „хоризонт на времето за изпълнение на задачата“. Това е времето, което обикновено отнема на програмистите да изпълнят задачите, които AI моделите могат да завършат с определена успеваемост.
В препечатване, публикувано тази седмица на Arxiv, Metr съобщава, че GPT-2, ранен голям език (LLM), издаден от OpenAI през 2019 г., се провали във всички задачи, които взеха човешки експерти повече от минута. Claude 3.7 Sonnet, издаден през февруари от стартиращия антропик на САЩ, изпълни 50% от задачите, които ще отнемат хората 59 минути.
Като цяло, времевият хоризонт на 13 -те водещи модели AI се е удвоил приблизително на всеки седем месеца от 2019 г., според проучването. Експоненциалният растеж на AI времевите хоризонти се ускори през 2024 г., като най -новите модели удвояват хоризонта си приблизително на всеки три месеца. Работата все още не е официално прегледана.
Придвижвайки се напред от 2019 г. до 2024 г., Metr предполага, че AI моделите ще могат да изпълняват задачи, които отвеждат хората около месец с 50% надеждност до 2029 г., може би дори по -рано.
Един месец специализиран човешки опит, предполага документът, може да бъде достатъчен, за да започне нова компания или да направи научни открития.
Джошуа Ганс, професор по мениджмънт в Университета в Торонто в Канада, който е писал за икономиката на ИИ, обяснява, че подобни прогнози не са особено полезни. „Екстраполациите са изкушаващи, но все още има толкова много, че не знаем как AI всъщност ще се използва за тези прогнози, за да има смисъл“, казва той.
Съдяйки хората срещу AI
Екипът избра 50% успеваемост, тъй като беше най -стабилен за малките промени в разпределението на данните. „Ако изберете много ниски или много високи прагове, добавянето или премахването на единична успешна или неуспешна задача съответно променя значително оценката“, обяснява съавторът Лорънс Чан.
Увеличаването на надеждността от 50% до 80% намалява средния времеви хоризонт с коефициент пет - въпреки че общото време за удвояване и линията на тенденцията бяха сходни.
През последните пет години бяха направени подобрения в Общи умения на LLMS воден предимно от увеличаване на мащаб - количеството на обучителните данни, времето за обучение и броя на параметрите на модела. Документът атрибути напредва в показателя за времеви хоризонт предимно към подобрения в логическите разсъждения, използването на инструменти, корекцията на грешки и доверието на задачите.
Подходът на Metr за оценка на времевите хоризонти адресира някои от ограниченията на съществуващите показатели на AI, които само свободно съвпадат с работата в реалния свят и бързо стават "наситени", тъй като моделите се подобряват. Той осигурява непрекъсната, интуитивна мярка, която по-добре улавя значителен напредък във времето, казва съавторът Бен Уест.
Водещите модели на AI постигат свръхчовешка ефективност в много Тестване на бенчмарк, но досега са имали сравнително малко икономическо въздействие, обяснява Запад. Последните изследвания на Metr предлага частичен отговор на този пъзел: Най -добрите модели показват времева рамка от около 40 минути и няма много икономически ценна работа, която човек може да свърши през това време, каза Уест.
Антон Тройников, изследовател на ИИ и предприемач от Сан Франциско, Калифорния, обяснява, че AI ще има по -голямо икономическо въздействие, ако организациите са били по -склонни да експериментират и инвестират в използването на моделите ефективно.
-
Kwa, T. et al. Предварително в Арксив https://doi.org/10.48550/arxiv.2503.14499 (2025).