AI vil snart overta prosjekter som vil koste folk uker

AI vil snart overta prosjekter som vil koste folk uker
De nåværende systemene for kunstig intelligens (AI) kan ikke overskride personer på lange oppgaver, Rapid Og kunne ha lukket GREG GAP GAP GAP GOPE enn mange forventet "klikk" -data for å lede "klikket" -data-data-dataen som en gang "klikket =". " "Referanser"> 1
Den ikke -profitorganisasjonen Metreley, California, utviklet nesten 170 virkelige oppgaver innen programmering, cybersikkerhet, generell tenking og mekanisk læring og bestemte deretter en "menneskelig baselinje" ved å ta tid som trengte ekspertene til å fullføre disse oppgavene.
Teamet utviklet deretter et nøkkelfigur for å evaluere fremdriften på AI -modeller , som kalles "Tids Time, Time Horizon". Dette er tiden som programmerere vanligvis trenger å fullføre oppgavene, kan gjøre AI -modellene med en viss suksessrate.
I en forhåndtrykk publisert denne uken i Arxiv rapporterer at GPT-2, en tidlig stor stemmemodell (LLM), som ble publisert av Openai i 2019, mislyktes i alle oppgaver som menneskelige eksperter koster mer enn et minutt. Claude 3.7 Sonnet, som ble utgitt av USAs oppstart antropisk i februar, fullførte 50 % av oppgavene som folk ville ta 59 minutter.
Totalt sett har tidshorisonten for de 13 ledende AI -modellene doblet seg omtrent hver syvende måned siden 2019, ifølge studien. Den eksponentielle veksten av AI -tidshorisonten akselererte i 2024, med de nyeste modellene doble horisontene sine rundt hver tredje måned. Arbeidet har ennå ikke blitt undersøkt formelt.
I fremgangen fra 2019 til 2024 antyder Metr at AI -modeller kan administrere oppgaver innen 2029 at folk trenger omtrent en måned, med en pålitelighet på 50 %, muligens enda tidligere.
En måned med engasjert menneskelig kompetanse, ifølge papiret, kan være nok til å starte et nytt selskap eller gjøre vitenskapelige funn.
Joshua Gans, Professor i ledelse ved University of Toronto i Canada, som skrev om økonomien i AI, forklarer at slike spådommer ikke er spesielt nyttige. "Ekstrapolasjoner er fristende, men det er fremdeles så mye at vi ikke vet hvordan AI faktisk brukes slik at disse spådommene gir mening," sier han.
vurdering av human versus ki
Team valgte suksessraten på 50 %fordi det var mest robust sammenlignet med små endringer i distribusjonen av data. "Hvis du velger veldig lave eller veldig høye terskelverdier, legger du til eller fjerner en enkelt vellykket eller mislykket oppgaveendring estimatet i henhold til," forklarer co -Author Lawrence Chan.
En økning i påliteligheten fra 50 % til 80 % reduserte gjennomsnittlig tidshorisont med en faktor på fem - selv om den generelle doblingstiden og trendlinjen var lik.
I løpet av de siste fem årene er forbedringene av
Ledende AI-modeller oppnår overmenneskelig ytelse på mange , men har hatt relativt lave økonomiske effekter så langt, forklarer West
Anton Troynikov, en AI -forsker og gründer fra San Francisco, California, forklarer at AI ville ha større økonomisk innflytelse hvis organisasjoner var bedre villige til å eksperimentere og investere i effektiv bruk av modellene. kwa, T. et al. Forhåndtrykk på arxiv Last ned referanser