AI zal binnenkort projecten overnemen die mensen weken zullen kosten

AI zal binnenkort projecten overnemen die mensen weken zullen kosten
De huidige systemen van kunstmatige intelligentie (AI) kunnen mensen niet overschrijden bij lange taken, echter Rapid and could have closed the gap faster than many expected, according to an analysis of leading models 1 .
De niet -profitorganisatie Metreley, Californië, ontwikkelde bijna 170 echte taken op het gebied van programmering, cyberbeveiliging, algemeen denken en mechanisch leren en bepaalde vervolgens een "menselijke basislijn" door de tijd te nemen die de experts nodig had om deze taken te voltooien.
Het team heeft vervolgens een sleutelcijfer ontwikkeld voor het evalueren van de voortgang van AI -modellen , die de" taken van tijd, tijdhorizon "wordt genoemd. Dit is de tijd die programmeurs meestal de taken moeten voltooien, de AI -modellen met een bepaald slagingspercentage kunnen uitvoeren.
In een preprint die deze week in Arxiv is gepubliceerd, meldt dat GPT-2, een Early Large Voice Model (LLM), dat in 2019 door Openai werd gepubliceerd, niet in alle taken faalde die menselijke experts meer dan een minuut kosten. Claude 3.7 Sonnet, dat in februari werd vrijgegeven door de Amerikaanse start-up-antropische, voltooide 50 % van de taken die mensen 59 minuten zouden aannemen.
Over het algemeen is de tijdshorizon van de 13 toonaangevende AI -modellen sinds 2019 ongeveer elke zeven maanden verdubbeld, volgens de studie. De exponentiële groei van de AI -tijdshorizons versnelde in 2024, met de nieuwste modellen om de drie maanden hun horizon te verdubbelen. Het werk is nog niet formeel onderzocht.
In de voortgang van 2019 tot 2024 suggereert Metr dat AI -modellen tegen 2029 taken kunnen beheren dat mensen ongeveer een maand nodig hebben, met een betrouwbaarheid van 50 %, mogelijk zelfs eerder.
Een maand toegewijde menselijke expertise kan volgens de krant voldoende zijn om een nieuw bedrijf te starten of wetenschappelijke ontdekkingen te doen.
Joshua Gans, Professor management aan de Universiteit van Toronto in Canada, die over de economie van AI schreef, legt uit dat dergelijke voorspellingen niet bijzonder nuttig zijn. "Extrapolaties zijn verleidelijk, maar er is nog steeds zoveel dat we niet weten hoe AI daadwerkelijk wordt gebruikt, zodat deze voorspellingen logisch zijn", zegt hij.
beoordeling van menselijk versus ki
Het team koos voor het slagingspercentage van 50 %omdat het het meest robuust was in vergelijking met kleine veranderingen in de verdeling van gegevens. "Als u een zeer lage of zeer hoge drempelwaarden kiest, wijzigt het toevoegen of verwijderen van een enkele succesvolle of mislukte taak de schatting volgens", legt co -auteur Lawrence Chan uit.
Een toename van de betrouwbaarheid van 50 % tot 80 % verminderde de gemiddelde tijdshorizon met een factor vijf - hoewel de algemene verdubbelingstijd en de trendlijn vergelijkbaar waren.
In de afgelopen vijf jaar, de verbeteringen van de
Toonaangevende AI-modellen bereiken superhuman-prestaties op veel Benchexclextits Anton Troynikov, een AI -onderzoeker en ondernemer uit San Francisco, Californië, legt uit dat AI een grotere economische invloed zou hebben als organisaties beter bereid waren te experimenteren en te investeren in effectief gebruik van de modellen. Kwa, T. et al. Preprint op arxiv https://doi.org/10.48550/arxiv.2503.14499 (2025). >