AI bo kmalu prevzel projekte, ki bodo ljudje prevzeli tedne
Umetna inteligenca se hitro izboljšuje in bi lahko kmalu prevzela projekte, ki ljudje trajajo tedne. Strokovna analiza kaže, da vodilni modeli AI napredujejo in bi lahko do leta 2029 opravili naloge s človeškim strokovnim znanjem v manj časa.

AI bo kmalu prevzel projekte, ki bodo ljudje prevzeli tedne
Današnji sistemi umetne inteligence (AI) ne morejo presegati ljudi pri dolgih nalogah, vendar se razvijajo hitro nadalje in bi lahko zaprli vrzel hitreje, kot so mnogi pričakovali, po analizi vodilnih modelov 1.
Neprofitna met Berkeley v Kaliforniji je razvila skoraj 170 nalog v resničnem svetu v programiranju, kibernetski varnosti, splošnem sklepanju in strojnem učenju, nato pa je vzpostavila "človeško izhodišče" z merjenjem časa, ki je trajal strokovnjake, da so te naloge opravili.
Ekipa je nato razvila metriko za oceno napredka AI modeli, ki se imenuje "Časovni čas zaključka naloge." To je čas, ki ga programerji običajno trajajo, da opravijo naloge, ki jih lahko AI modeli opravijo z določeno stopnjo uspešnosti.
V predtrintu, ki je bil ta teden objavljen na ARXIV, METR poroča, da GPT-2, zgodnji veliki jezikovni model (LLM), ki ga je OpenAI izdal leta 2019, ni uspel pri vseh nalogah, ki so človeške strokovnjake prevzele več kot minuto. Claude 3.7 Sonnet, ki ga je februarja izdal ameriški zagonski Anthropic, je opravil 50% nalog, ki bi ljudi trajalo 59 minut.
Na splošno se je časovno obdobje 13 vodilnih modelov AI podvojilo približno vsakih sedem mesecev od leta 2019, kaže raziskava. Eksponentna rast časovnih obzorišč AI se je pospešila leta 2024, najnovejši modeli pa so njihov obzorje podvojili približno vsake tri mesece. Delo še ni uradno pregledano.
Ko se je od leta 2019 do leta 2024 nadaljeval, METR predlaga, da bodo modeli AI lahko opravili naloge, ki do leta 2029, morda celo prej, do leta 2029 vzamejo približno mesec dni s 50 -odstotno zanesljivostjo.
En mesec namenskega človeškega strokovnega znanja, predlaga prispevek, je lahko dovolj za začetek novega podjetja ali znanstvena odkritja.
Vendar Joshua Gans, profesor vodstva na Univerzi v Torontu v Kanadi, ki je pisal o ekonomiji AI, pojasnjuje, da takšne napovedi niso posebej koristne. "Ekstrapolacije so mamljive, vendar še vedno obstaja toliko, da ne vemo o tem, kako se bo AI dejansko uporabljal za te napovedi, da bo smiselno," pravi.
Presojanje ljudi v primerjavi z AI
Ekipa je izbrala 50 -odstotno stopnjo uspešnosti, ker je bila najbolj močna za majhne spremembe v porazdelitvi podatkov. "Če izberete zelo nizke ali zelo visoke pragove, dodajanje ali odstranjevanje ene same uspešne ali neuspešne naloge ustrezno spremeni oceno," pojasnjuje soavtor Lawrence Chan.
Povečanje zanesljivosti s 50% na 80% je zmanjšalo povprečno časovno obdobje za faktor pet - čeprav sta bila skupna dvojitna čas in trendna črta podobna.
V zadnjih petih letih so bile izboljšane Splošne spretnosti LLM poganja predvsem povečanje obsega - količina podatkov o usposabljanju, čas usposabljanja in število modelnih parametrov. Pripadnik pripisuje napredek v metriki Time Horizon predvsem za izboljšave logičnega sklepanja, uporabe orodij, popravljanja napak in zaupanju nalog.
Metrin pristop k oceni časovnih obzorij obravnava nekatere omejitve obstoječih merilnih vrednosti AI, ki se le ohlapno ujemajo z delom v resničnem svetu in hitro postanejo "nasičeni", ko se modeli izboljšujejo. Zagotavlja neprekinjen, intuitiven ukrep, ki bolje zajame pomemben napredek sčasoma, pravi soavtor Ben West.
Vodilni modeli AI v mnogih dosegajo nadčloveške zmogljivosti Testiranje vrednosti, vendar so do zdaj imeli razmeroma majhen gospodarski vpliv, pojasnjuje West. Najnovejše raziskave MeTR ponujajo delni odgovor na to sestavljanko: najboljši modeli prikazujejo časovni okvir približno 40 minut in v tem času ni veliko ekonomsko dragocenega dela, ki ga lahko opravlja človek, je dejal West.
Vendar Anton Troynikov, raziskovalec AI in podjetnik iz San Francisca v Kaliforniji, pojasnjuje, da bi imel AI večji gospodarski vpliv, če bi bile organizacije bolj pripravljene eksperimentirati in vlagati v učinkovito uporabo modelov.
-
Kwa, T. et al. Pretrint pri Arxivu https://doi.org/10.48550/arxiv.2503.14499 (2025).