AI va prelua în curând proiecte care durează oamenii să fie săptămâni
Inteligența artificială se îmbunătățește rapid și ar putea în curând să preia proiecte care durează oamenii să se finalizeze. Analiza experților arată că modelele AI de frunte progresează și ar putea finaliza sarcinile cu expertiză umană în mai puțin timp până în 2029.

AI va prelua în curând proiecte care durează oamenii să fie săptămâni
Sistemele de inteligență artificială de astăzi (AI) nu pot depăși oamenii pe sarcini lungi, dar evoluează rapid mai departe și ar putea închide decalajul mai repede decât se așteptau mulți, potrivit unei analize a modelelor de frunte 1.
METR-ul nonprofit din Berkeley, din California, a dezvoltat aproape 170 de sarcini din lumea reală în programare, cibersecuritate, raționament general și învățare automată, apoi a stabilit o „bază umană”, măsurând timpul necesar experților pentru a finaliza aceste sarcini.
Echipa a dezvoltat apoi o metrică pentru a evalua progresul Modele AI, care se numește „orizont de timp de finalizare a sarcinilor”. Acesta este momentul în care este de obicei programatori pentru a finaliza sarcinile pe care modelele AI le pot finaliza cu o anumită rată de succes.
Într-un preprint publicat săptămâna aceasta pe ARXIV, METR relatează că GPT-2, un model de limbaj mare timpuriu (LLM) lansat de OpenAI în 2019, a eșuat la toate sarcinile care au luat experți umani mai mult de un minut. Sonnet Claude 3.7, lansat în februarie de startup -ul american Antropic, a finalizat 50% din sarcinile care ar lua oamenii 59 de minute.
În general, orizontul de timp al celor 13 modele AI de frunte s -a dublat aproximativ la fiecare șapte luni din 2019, potrivit studiului. Creșterea exponențială a orizonturilor de timp AI s -a accelerat în 2024, cele mai noi modele dublându -și orizontul aproximativ la fiecare trei luni. Lucrarea nu a fost încă revizuită formal.
Mergând mai departe din 2019 până în 2024, METR sugerează că modelele AI vor putea finaliza sarcini care duc oamenii aproximativ o lună cu o fiabilitate de 50% până în 2029, poate chiar mai devreme.
O lună de expertiză umană dedicată, sugerează lucrarea, poate fi suficientă pentru a începe o nouă companie sau pentru a face descoperiri științifice.
Cu toate acestea, Joshua Gans, profesor de management la Universitatea din Toronto din Canada, care a scris despre economia AI, explică că astfel de predicții nu sunt deosebit de utile. „Extrapolările sunt tentante, dar încă nu știm despre modul în care AI va fi folosit de fapt pentru aceste predicții pentru a avea sens”, spune el.
Judecarea oamenilor față de AI
Echipa a ales rata de succes de 50%, deoarece a fost cea mai robustă la mici modificări ale distribuției datelor. „Dacă alegeți praguri foarte mici sau foarte mari, adăugând sau eliminând o singură sarcină de succes sau eșuată, în consecință, modifică foarte mult estimarea”, explică coautorul Lawrence Chan.
Creșterea fiabilității de la 50% la 80% a redus orizontul mediu de timp cu un factor de cinci - chiar dacă timpul de dublare globală și linia de tendință au fost similare.
În ultimii cinci ani, s -au făcut îmbunătățiri la Abilități generale ale LLM -urilor condus în principal de creșteri ale scării - cantitatea de date de instruire, timpul de instruire și numărul de parametri ai modelului. Lucrarea atribuie progrese în metrica orizontului de timp, în principal la îmbunătățirile raționamentului logic, utilizarea instrumentelor, corectarea erorilor și încrederea sarcinilor.
Abordarea METR de a evalua orizonturile de timp abordează unele dintre limitările de referință AI existente, care se potrivesc doar cu munca din lumea reală și devin rapid „saturate” pe măsură ce modelele se îmbunătățesc. Oferă o măsură continuă, intuitivă, care surprinde mai bine progresul semnificativ în timp, spune coautorul Ben West.
Modelele AI de frunte obțin performanțe supraumane în multe Testarea de referință, dar până acum au avut un impact economic relativ mic, explică West. Cele mai recente cercetări ale METR oferă un răspuns parțial la acest puzzle: cele mai bune modele arată un interval de timp de aproximativ 40 de minute și nu există multă muncă valoroasă din punct de vedere economic pe care o persoană o poate face în acel timp, a spus West.
Cu toate acestea, Anton Troynikov, un cercetător AI și antreprenor din San Francisco, California, explică că AI ar avea un impact economic mai mare dacă organizațiile ar fi mai dispuse să experimenteze și să investească în utilizarea modelelor în mod eficient.
- 
Kwa, T. și colab. Preprint la Arxiv https://doi.org/10.48550/arxiv.2503.14499 (2025). 
 
            