AI brzy převezme projekty, které budou stát lidi týdny

AI brzy převezme projekty, které budou stát lidi týdny
Současné systémy umělé inteligence (AI) nesmí překročit lidi při dlouhých úkolech, Rapid a mohla by uzavřít mezeru rychleji, než se očekávalo, podle analýzy předních modelů 1
Nezisková organizace Metreley v Kalifornii vyvinula téměř 170 skutečných úkolů v oblasti programování, kybernetického zabezpečení, obecného myšlení a mechanického učení a poté určila „lidskou základní linii“ tím, že si vzala čas, který potřeboval odborníky k dokončení těchto úkolů.
Tým pak vyvinul klíčovou postavu pro hodnocení průběhu AI modely , který se nazývá„ úkoly času, časového horizontu “. To je doba, kterou programátoři obvykle potřebují dokončit úkoly, mohou modely AI provádět s určitou mírou úspěšnosti.
V předtisku zveřejněném tento týden v Arxiv hlásí, že GPT-2, raný velký hlasový model (LLM), který zveřejnil OpenAI v roce 2019, selhal ve všech úkolech, které lidští odborníci stojí více než minutu. Claude 3.7 Sonet, který byl propuštěn americkým start-up anthropic v únoru, dokončil 50 % úkolů, které by lidé trvali 59 minut.
Celkově se podle studie časový horizont 13 předních modelů AI zdvojnásobil každých sedm měsíců od roku 2019. Exponenciální růst časových horizontů AI se zrychlil v roce 2024, přičemž nejnovější modely se každý tři měsíce zdvojnásobily. Práce dosud nebyla formálně prozkoumána.
V pokroku od roku 2019 do roku 2024 Metr navrhuje, že modely AI mohou do roku 2029 řídit úkoly, které lidé potřebují asi měsíc, se spolehlivostí 50 %, možná ještě dříve.
Měsíc oddaných odborných znalostí, podle článku, může stačit k zahájení nové společnosti nebo k vědeckým objevům.
Joshua Gans, profesor managementu na University of Toronto v Kanadě, který psal o ekonomice AI, vysvětluje, že takové předpovědi nejsou zvlášť užitečné. "Extrapolace jsou lákavé, ale stále je toho tolik, že nevíme, jak se AI skutečně používá, aby tyto předpovědi dávaly smysl," říká.
Hodnocení člověka versus Ki
Tým si vybral úspěšnost 50 %, protože byl nejrobustnější ve srovnání s malými změnami v distribuci dat. „Pokud zvolíte velmi nízké nebo velmi vysoké prahové hodnoty, přidání nebo odstranění jediného úspěšného nebo neúspěšného úlohy změní odhad podle:“ vysvětluje Co -Autor Lawrence Chan.
Zvýšení spolehlivosti z 50 % na 80 % snížilo průměrný časový horizont o faktor pěti - ačkoli obecná doba zdvojnásobení a trendová linie byly podobné.
V posledních pěti letech zlepšení Hlavně poháněné měřítkem zvyšuje-množství dat tréninku, čas tréninku a počet parametrů modelu. Příspěvek vede pokrok v klíčové postavě časového horizontu hlavně ke zlepšení logického argumentu, použití nástrojů, korekce chyb a sebevědomí v plnění úkolů.
Metr přístup k vyhodnocení časového horizontu řeší některá omezení stávajících benchmarků AI, která odpovídají skutečné práci a jsou rychle „nasycené“, když se modely zlepšují. Nabízí nepřetržité, intuitivní opatření, které lepší zaznamenává významný pokrok po delší dobu, říká Mitautor Ben West.
Vedoucí modely AI dosahují nadlidského výkonu na mnoha
kwa, T. et al. Preprint na arxiv https://doi.org/10.48550/arxiv.2503.14499 (2025).