AI overtager snart projekter, der koster folk uger

AI overtager snart projekter, der koster folk uger
De nuværende systemer med kunstig intelligens (AI) kan ikke overstige mennesker på lange opgaver, hurtig og kunne have lukket kløften hurtigere end mange forventet, i henhold til en analyse af førende modeller 1
Den nonprofit -organisation Metreley, Californien, udviklede næsten 170 reelle opgaver inden for programmering, cyber -sikkerhed, generel tænkning og mekanisk læring og bestemte derefter en "menneskelig basislinje" ved at tage tid, der havde brug for eksperterne til at udføre disse opgaver.
Holdet udviklede derefter en nøglefigur til evaluering af fremskridtene for AI -modeller , der kaldes" Time Horizon's Time Horizon ". Dette er den tid, som programmerere typisk har brug for at udføre opgaverne, kan udføre AI -modellerne med en bestemt succesrate.
I en fortryk, der blev offentliggjort denne uge i ARXIV, rapporterer, at GPT-2, en tidlig stor stemmemodel (LLM), som blev udgivet af Openai i 2019, mislykkedes i alle opgaver, som menneskelige eksperter koster mere end et minut. Claude 3.7 Sonnet, som blev frigivet af den amerikanske startantropiske i februar, afsluttede 50 % af de opgaver, som folk ville tage 59 minutter.
Generelt er tidshorisonten for de 13 førende AI -modeller fordoblet omkring hver syv måned siden 2019, ifølge undersøgelsen. Den eksponentielle vækst af AI -tidshorisonterne accelererede i 2024, med de nyeste modeller fordobler deres horisonter omkring hver tredje måned. Arbejdet er endnu ikke formelt undersøgt.
I fremskridtene fra 2019 til 2024 foreslår Metr, at AI -modeller kan styre opgaver i 2029, som folk har brug for cirka en måned, med en pålidelighed på 50 %, muligvis endnu tidligere.
En måned med engageret menneskelig ekspertise kan ifølge papiret være nok til at starte et nyt firma eller foretage videnskabelige opdagelser.
Joshua Gans, Professor i ledelse ved University of Toronto i Canada, der skrev om AI's økonomi, forklarer, at sådanne forudsigelser ikke er særlig nyttige. "Ekstrapolationer er fristende, men der er stadig så meget, at vi ikke ved, hvordan AI faktisk bruges, så disse forudsigelser giver mening," siger han.
vurdering af menneskelig kontra ki
Holdet valgte succesraten på 50 %, fordi det var mest robust sammenlignet med små ændringer i fordelingen af data. "Hvis du vælger meget lave eller meget høje tærskelværdier, skal du tilføje eller fjerne en enkelt vellykket eller mislykket opgave ændre estimatet ifølge," forklarer co -forfatter Lawrence Chan.
En stigning i pålidelighed fra 50 % til 80 % reducerede den gennemsnitlige tidshorisont med en faktor på fem - selvom den generelle fordoblingstid og trendlinjen var ens.
M Llms hovedsageligt drevet af skala øger-mængden af træningsdata, træningstid og antal modelparametre. Papiret fører fremskridtene i den vigtigste figur i tidshorisonten hovedsageligt til forbedringer i logisk argument, brugen af værktøjer, fejlkorrektion og selvtillid til opfyldelse af opgaver.Metr -tilgangen til evaluering af tidshorisonten adresserer nogle af begrænsningerne for eksisterende AI -benchmarks, der kun matcher det virkelige arbejde og hurtigt er "mættet", når modellerne forbedres. Det tilbyder en kontinuerlig, intuitiv foranstaltning, der bedre registrerer betydelige fremskridt over en længere periode, siger Mitautor Ben West.
Ledende AI-modeller opnås overmenneskelig præstation på mange , men har haft relativt lave økonomiske effekter, forklarer West
Anton Troynikov, en AI -forsker og iværksætter fra San Francisco, Californien, forklarer, at AI ville have en større økonomisk indflydelse, hvis organisationer var bedre villige til at eksperimentere og investere i effektiv brug af modellerne. kwa, T. et al. Preprint at arxiv https://doi.org/10.48550/arxiv.2503.14499 (2025).