AI bo kmalu prevzel projekte, ki bodo ljudje stali tedne

AI bo kmalu prevzel projekte, ki bodo ljudje stali tedne
Vendar se trenutni sistemi umetne inteligence (AI) ne morejo presegati ljudi na dolgih nalogah, vendar hitro in bi lahko vrzeli zaprli hitreje, kot je bilo veliko pričakovano, v skladu z analizo vodilnih modelov 1Neprofitna organizacija Metreley v Kaliforniji je na področju programiranja, kibernetskega varnosti, splošnega razmišljanja in mehanskega učenja razvila skoraj 170 resničnih nalog, nato pa določila "človeško bazno linijo", tako da je vzela čas, ki je potreboval strokovnjake za dokončanje teh nalog.
The team then developed a key figure for evaluating the progress of AI modeli , ki se imenuje" Naloge časa, Time Horizon ". To je čas, ki ga programerji običajno morajo opraviti naloge, lahko z določeno uspešnostjo izvajajo modele AI.
V predpricesu, ki je bil ta teden objavljen v ARXIV, poroča, da GPT-2, zgodnji veliki glasovni model (LLM), ki ga je OpenAI objavil leta 2019, ni uspel pri vseh nalogah, ki jih človeški strokovnjaki stanejo več kot minuto. Claude 3.7 Sonnet, ki ga je februarja izdal ameriški zagonski Anthropic, je opravil 50 % nalog, ki bi jih ljudje vzeli 59 minut.
Na splošno se je časovno obdobje 13 vodilnih modelov AI podvojilo približno vsakih sedem mesecev od leta 2019, kaže raziskava. Eksponentna rast časovnih obzorij AI se je leta 2024 pospešila, najnovejši modeli pa se vsako tri mesece podvojijo. Delo še ni uradno preučeno.
V napredku od leta 2019 do 2024 Metr predlaga, da lahko AI modeli do leta 2029 upravljajo naloge, ki jih ljudje potrebujejo približno mesec dni, z zanesljivostjo 50 %, morda še prej.
Mesec zavezanega človeškega strokovnega znanja je po prispevku lahko dovolj za ustanovitev novega podjetja ali znanstvena odkritja.
Joshua Gans, profesor vodstva na Univerzi v Torontu v Kanadi, ki je pisal o gospodarstvu AI, pojasnjuje, da takšne napovedi niso posebej koristne. "Ekstrapolacije so mamljive, vendar je še vedno toliko, da ne vemo, kako se AI dejansko uporablja, tako da so te napovedi smiselne," pravi.
Ocena človeka v primerjavi s Ki
Ekipa je izbrala stopnjo uspešnosti 50 %, ker je bila najbolj robustna v primerjavi z majhnimi spremembami porazdelitve podatkov. "Če izberete zelo nizke ali zelo visoke mejne vrednosti, dodajate ali odstranite eno uspešno ali neuspešno nalogo, spremenite oceno v skladu," pojasnjuje Co -Author Lawrence Chan.
Povečanje zanesljivosti s 50 % na 80 % je zmanjšalo povprečno časovno obdobje za faktor pet - čeprav sta bila splošna časovna podvojitev in trendna črta podobna.
V zadnjih petih letih so izboljšave V glavnem poganjajo povečanje obsega-količina podatkov o usposabljanju, čas usposabljanja in število parametrov modela. Prispevek vodi napredek v ključni številki časovnega obzorja, predvsem do izboljšav logičnega argumenta, uporabe orodij, popravljanja napak in samozavesti pri izpolnjevanju nalog.
Met -ov pristop za oceno časovnega obzorja obravnava nekatere omejitve obstoječih merilnih vrednosti AI, ki ustrezajo samo resničnemu delu in so hitro "nasičeni", ko se modeli izboljšajo. Ponuja neprekinjen, intuitiven ukrep, ki v daljšem časovnem obdobju beleži pomemben napredek, pravi mitator Ben West.
Vodilni modeli AI dosegajo superhumansko zmogljivost pri mnogih , vendar so imeli do zdaj razmeroma nizke ekonomske učinke, najnovejše raziskave MetR ponujajo delni odgovor na to uganko: najboljši modeli kažejo približno 40 minut, v tem času pa ni veliko ekonomsko dragocenega dela
Anton Troynikov, raziskovalec AI in podjetnik iz San Francisca v Kaliforniji, pojasnjuje, da bi imel AI večji gospodarski vpliv, če bi bile organizacije bolj pripravljene eksperimentirati in vlagati v učinkovito uporabo modelov. kwa, T. et al. Predprint pri arxivu (2025). >