AI overtager snart projekter, der tager mennesker uger
Kunstig intelligens forbedrer sig hurtigt og kunne snart påtage sig projekter, der tager mennesker uger at gennemføre. Ekspertanalyse viser, at førende AI -modeller gør fremskridt og kunne udføre opgaver med menneskelig ekspertise på kortere tid i 2029.

AI overtager snart projekter, der tager mennesker uger
Dagens kunstige intelligens (AI) -systemer kan ikke overgå mennesker på lange opgaver, men de udvikler sig hurtigt yderligere og kunne lukke kløften hurtigere end mange forventede, ifølge en analyse af førende modeller 1.
Den Berkeley, Californien-baserede nonprofit-METR udviklede næsten 170 opgaver i den virkelige verden inden for programmering, cybersikkerhed, generel ræsonnement og maskinlæring og etablerede derefter en "menneskelig baseline" ved at måle den tid, det tog eksperter til at udføre disse opgaver.
Holdet udviklede derefter en metrisk til at vurdere fremskridt med AI -modeller, der kaldes "Tillad -horisonten til opgaven." Dette er den tid, det typisk tager for programmerere at udføre de opgaver, som AI -modeller kan gennemføre med en bestemt succesrate.
I en fortryk, der blev offentliggjort denne uge på ARXIV, rapporterer Metr, at GPT-2, en tidlig stor sprogmodel (LLM) frigivet af Openai i 2019, mislykkedes ved alle opgaver, der tog menneskelige eksperter mere end et minut. Claude 3.7 Sonnet, der blev udgivet i februar af US Startup Anthropic, afsluttede 50% af opgaver, der ville tage mennesker 59 minutter.
Samlet set er tidshorisonten for de 13 førende AI -modeller fordoblet cirka hver syv måned siden 2019, ifølge undersøgelsen. Den eksponentielle vækst af AI -tidshorisonter accelererede i 2024, med de nyeste modeller, der fordoblede deres horisont cirka hver tredje måned. Arbejdet er endnu ikke formelt gennemgået.
Fremover fra 2019 til 2024 antyder Metr, at AI -modeller vil være i stand til at udføre opgaver, der tager mennesker cirka en måned med 50% pålidelighed i 2029, måske endnu før.
En måned med dedikeret menneskelig ekspertise, antyder papiret, kan være nok til at starte et nyt firma eller foretage videnskabelige opdagelser.
Imidlertid forklarer Joshua Gans, professor i ledelse ved University of Toronto i Canada, der har skrevet om AI's økonomi, at sådanne forudsigelser ikke er særlig nyttige. ”Ekstrapolationer er fristende, men der er stadig så meget, at vi ikke ved om, hvordan AI rent faktisk vil blive brugt til disse forudsigelser for at give mening,” siger han.
At dømme mennesker mod AI
Holdet valgte succesraten på 50%, fordi det var mest robust over for små ændringer i datafordelingen. ”Hvis du vælger meget lave eller meget høje tærskler, skal du tilføje eller fjerne en enkelt vellykket eller mislykket opgave i overensstemmelse hermed estimatet meget,” forklarer medforfatter Lawrence Chan.
Stigende pålidelighed fra 50% til 80% reducerede den gennemsnitlige tidshorisont med en faktor på fem - selvom den samlede fordoblingstid og trendlinjen var ens.
I løbet af de sidste fem år er der foretaget forbedringer til Generelle færdigheder i LLMS Drevet primært af stigninger i skala - mængden af træningsdata, træningstid og antal modelparametre. Papiret tilskriver fremskridt i tidshorisonten metrisk primært til forbedringer i logisk ræsonnement, værktøjsanvendelse, fejlkorrektion og opgavens tillid.
Metrs tilgang til vurdering af tidshorisonter adresserer nogle af begrænsningerne i eksisterende AI-benchmarks, som kun løst matcher det virkelige verdens arbejde og hurtigt bliver "mættede", når modeller forbedres. Det giver en kontinuerlig, intuitiv foranstaltning, der bedre fanger betydelige fremskridt over tid, siger medforfatter Ben West.
Ledende AI -modeller opnår overmenneskelig præstation i mange Benchmark -test, men indtil videre har har haft relativt lidt økonomisk indvirkning, forklarer West. Metrs seneste forskning tilbyder et delvist svar på dette puslespil: De bedste modeller viser en tidsramme på ca. 40 minutter, og der er ikke meget økonomisk værdifuldt arbejde, som en person kan udføre i den tid, sagde West.
Anton Troynikov, en AI -forsker og iværksætter fra San Francisco, Californien, forklarer imidlertid, at AI ville have en større økonomisk indvirkning, hvis organisationer var mere villige til at eksperimentere og investere i at bruge modellerne effektivt.
-
Kwa, T. et al. Fortryk på ARXIV https://doi.org/10.48550/arxiv.2503.14499 (2025).