AI vil snart overta prosjekter som tar mennesker uker

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Kunstig intelligens forbedrer seg raskt og kan snart ta på seg prosjekter som tar mennesker uker å fullføre. Ekspertanalyse viser at ledende AI -modeller gjør fremskritt og kan fullføre oppgaver med menneskelig kompetanse på kortere tid innen 2029.

Künstliche Intelligenz verbessert sich rasant und könnte bald Projekte übernehmen, für die Menschen Wochen benötigen. Expertenanalysen zeigen, dass führende KI-Modelle im Fortschritt sind und bis 2029 Aufgaben mit menschlicher Expertise in kürzerer Zeit bewältigen könnten.
Kunstig intelligens forbedrer seg raskt og kan snart ta på seg prosjekter som tar mennesker uker å fullføre. Ekspertanalyse viser at ledende AI -modeller gjør fremskritt og kan fullføre oppgaver med menneskelig kompetanse på kortere tid innen 2029.

AI vil snart overta prosjekter som tar mennesker uker

Dagens kunstige intelligens (AI) systemer kan ikke overgå mennesker på lange oppgaver, men de utvikler seg raskt videre og kunne lukke gapet raskere enn mange forventet, ifølge en analyse av ledende modeller 1.

Den Berkeley, California-baserte nonprofit Metr utviklet nesten 170 virkelige oppgaver i programmering, cybersecurity, generell resonnement og maskinlæring, og etablerte deretter en "menneskelig baseline" ved å måle tiden det tok eksperter å fullføre disse oppgavene.

Teamet utviklet deretter en beregning for å vurdere fremdriften i AI -modeller, som kalles "oppgavens fullføringstidshorisont." Dette er tiden det vanligvis tar for programmerere å fullføre oppgavene som AI -modeller kan fullføre med en viss suksessrate.

I en forhåndsprint publisert denne uken på ARXIV, rapporterer Metr at GPT-2, en tidlig stor språkmodell (LLM) utgitt av Openai i 2019, mislyktes ved alle oppgaver som tok menneskelige eksperter mer enn et minutt. Claude 3.7 Sonnet, utgitt i februar av USAs oppstart Anthropic, fullførte 50% av oppgavene som ville ta mennesker 59 minutter.

Totalt sett har tidshorisonten for de 13 ledende AI -modellene doblet omtrent hver syvende måned siden 2019, ifølge studien. Den eksponentielle veksten av AI -tidshorisonter akselererte i 2024, med de nyeste modellene som doblet horisonten sin omtrent hver tredje måned. Arbeidet er ennå ikke formelt gjennomgått.

Fremover fra 2019 til 2024 antyder Metr at AI -modeller vil kunne fullføre oppgaver som tar mennesker omtrent en måned med 50% pålitelighet innen 2029, kanskje enda før.

En måned med dedikert menneskelig kompetanse, antyder papiret, kan være nok til å starte et nytt selskap eller gjøre vitenskapelige funn.

Imidlertid forklarer Joshua Gans, professor i ledelse ved University of Toronto i Canada som har skrevet om økonomien i AI, at slike spådommer ikke er spesielt nyttige. "Ekstrapolasjoner er fristende, men det er fremdeles så mye vi ikke vet om hvordan AI faktisk vil bli brukt til at disse spådommene skal være fornuftige," sier han.

Å dømme mennesker kontra AI

Teamet valgte suksessraten på 50% fordi det var mest robust for små endringer i datadistribusjonen. "Hvis du velger veldig lave eller veldig høye terskler, legger du til eller fjerner en enkelt vellykket eller mislykket oppgave i samsvar med dette estimatet sterkt," forklarer medforfatter Lawrence Chan.

Å øke påliteligheten fra 50% til 80% reduserte gjennomsnittlig tidshorisont med en faktor på fem - selv om den samlede doblingstiden og trendlinjen var lik.

I løpet av de siste fem årene har det blitt gjort forbedringer i Generelle ferdigheter til LLMS drevet først og fremst av økninger i skalaen - mengden treningsdata, treningstid og antall modellparametere. Oppgaven tilskriver fremgang i tidshorisontmetrikk først og fremst til forbedringer i logisk resonnement, verktøybruk, feilkorreksjon og oppgavetillit.

Metrs tilnærming til å vurdere tidshorisonter adresserer noen av begrensningene i eksisterende AI-benchmarks, som bare løst samsvarer med den virkelige verden og raskt blir "mettede" etter hvert som modeller forbedres. Det gir et kontinuerlig, intuitivt tiltak som bedre fanger betydelig fremgang over tid, sier medforfatter Ben West.

Ledende AI -modeller oppnår overmenneskelige ytelser hos mange Benchmark -testing, men så langt har hatt relativt liten økonomisk innvirkning, forklarer West. Metrs siste forskning gir et delvis svar på dette puslespillet: De beste modellene viser en tidsramme på omtrent 40 minutter, og det er ikke mye økonomisk verdifullt arbeid en person kan gjøre i den tiden, sa West.

Anton Troynikov, en AI -forsker og gründer fra San Francisco, California, forklarer imidlertid at AI ville ha større økonomisk innvirkning hvis organisasjoner var mer villige til å eksperimentere og investere i å bruke modellene effektivt.

  1. Kwa, T. et al. Forhåndtrykk på Arxiv https://doi.org/10.48550/arxiv.2503.14499 (2025).

Last ned referanser