AI kommer snart att ta över projekt som kommer att kosta människor veckor

AI kommer snart att ta över projekt som kommer att kosta människor veckor
De nuvarande systemen för artificiell intelligens (AI) kan inte överstiga människor på långa uppgifter, men Rapid and could have closed the gap faster than many expected, according to an analysis of leading models 1 .
Den ideella organisationen Metreley, Kalifornien, utvecklade nästan 170 verkliga uppgifter inom områdena programmering, cybersäkerhet, allmänt tänkande och mekaniskt lärande och bestämde sedan en "mänsklig baslinje" genom att ta tid som behövde experterna för att slutföra dessa uppgifter.
Teamet utvecklade sedan en nyckelfigur för att utvärdera framstegen med AI -modeller , som kallas" Tasks of Time, Time Horizon ". Detta är den tid som programmerare vanligtvis behöver slutföra uppgifterna, kan göra AI -modellerna med en viss framgångsgrad.
I ett förtryck som publicerades denna vecka i ARXIV rapporterar att GPT-2, en tidig stor röstmodell (LLM), som publicerades av OpenAI 2019, misslyckades i alla uppgifter som mänskliga experter kostar mer än en minut. Claude 3.7 Sonnet, som släpptes av USA: s start-up-antropiska i februari, slutförde 50 % av de uppgifter som människor skulle ta 59 minuter.
Sammantaget har tidshorisonten för de 13 ledande AI -modellerna fördubblats ungefär var sju månad sedan 2019, enligt studien. Den exponentiella tillväxten av AI -tidshorisonterna accelererade 2024, med de senaste modellerna fördubblar sina horisonter runt var tredje månad. Arbetet har ännu inte formellt granskats.
I framstegen från 2019 till 2024 föreslår MetR att AI -modeller kan hantera uppgifter år 2029 som människor behöver ungefär en månad, med en tillförlitlighet på 50 %, kanske ännu tidigare.
En månad med engagerad mänsklig expertis, enligt tidningen, kan vara tillräckligt för att starta ett nytt företag eller göra vetenskapliga upptäckter.
Joshua Gans, Professor i ledning vid University of Toronto i Kanada, som skrev om AI: s ekonomi, förklarar att sådana förutsägelser inte är särskilt användbara. "Extrapolationer är frestande, men det finns fortfarande så mycket att vi inte vet hur AI faktiskt används så att dessa förutsägelser är vettiga," säger han.
bedömning av mänsklig kontra ki
Teamet valde en framgångsgrad på 50 %eftersom det var mest robust jämfört med små förändringar i distributionen av data. "Om du väljer mycket låga eller mycket höga tröskelvärden, lägger eller tar bort en enda framgångsrik eller misslyckad uppgift om uppskattningen enligt," förklarar co -author Lawrence Chan.
En ökning av tillförlitligheten från 50 % till 80 % minskade den genomsnittliga tidshorisonten med en faktor fem - även om den allmänna fördubblingstiden och trendlinjen var liknande.
Under de senaste fem åren förbättringarna av Huvudsakligen drivs av skala ökar-mängden träningsdata, träningstid och antal modellparametrar. Uppsatsen leder framstegen i tidshorisontens nyckelfigur främst till förbättringar av logiskt argument, användningen av verktyg, felkorrigering och självförtroende vid uppfyllandet av uppgifterna.
METR -metoden för att utvärdera tidshorisonten behandlar några av begränsningarna för befintliga AI -riktmärken, som bara matchar det verkliga arbetet och snabbt är "mättade" när modellerna förbättras. Det erbjuder en kontinuerlig, intuitiv åtgärd som bättre registrerar betydande framsteg under en längre tid, säger Mitautor Ben West.
Ledande AI-modeller uppnår övermänsklig prestanda på många Anton Troynikov, AI -forskare och entreprenör från San Francisco, Kalifornien, förklarar att AI skulle ha ett större ekonomiskt inflytande om organisationer var bättre villiga att experimentera och investera i effektiv användning av modellerna.
-
KWA, T. et al. Förtryck på Arxiv >>>>> https://doi.org/10.48550/arxiv.2503.14499 (2025).