AI brzy převezme projekty, které trvají lidi týdny

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Umělá inteligence se rychle zlepšuje a brzy by mohla převzít projekty, které trvají dokončení lidí. Expertní analýza ukazuje, že přední modely AI dosahují pokroku a do roku 2029 by mohly splnit úkoly s lidskými znalostmi v kratším čase.

Künstliche Intelligenz verbessert sich rasant und könnte bald Projekte übernehmen, für die Menschen Wochen benötigen. Expertenanalysen zeigen, dass führende KI-Modelle im Fortschritt sind und bis 2029 Aufgaben mit menschlicher Expertise in kürzerer Zeit bewältigen könnten.
Umělá inteligence se rychle zlepšuje a brzy by mohla převzít projekty, které trvají dokončení lidí. Expertní analýza ukazuje, že přední modely AI dosahují pokroku a do roku 2029 by mohly splnit úkoly s lidskými znalostmi v kratším čase.

AI brzy převezme projekty, které trvají lidi týdny

Dnešní systémy umělé inteligence (AI) nemohou překonat lidi při dlouhých úkolech, ale vyvíjejí se rychle dále a může být mezera uzavřít rychleji, než se očekávalo, podle analýzy předních modelů 1.

Nezisková metr se sídlem v Berkeley v Kalifornii vyvinula téměř 170 úkolů v reálném světě v programování, kybernetické bezpečnosti, obecném uvažování a strojovém učení a poté vytvořila „lidskou základní linii“ měřením času, kterým trvalo odborníky, aby tyto úkoly dokončily.

Tým pak vyvinul metriku pro posouzení pokroku Modely AI, který se nazývá „Časový horizont dokončení úkolu“. To je doba, kterou obvykle vyžaduje, aby programátoři dokončili úkoly, které mohou modely AI dokončit s určitou mírou úspěchu.

V předtisku zveřejněném tento týden na ARXIV hlásí Metr, že GPT-2, raný velký jazykový model (LLM) vydaný OpenAI v roce 2019, selhal za všechny úkoly, které vzaly lidské odborníky více než minutu. Claude 3.7 Sonet, vydaný v únoru americkým startup Antropic, dokončil 50% úkolů, které by zabíraly 59 minut.

Celkově se podle studie časový horizont 13 předních modelů AI zdvojnásobil přibližně každých sedm měsíců od roku 2019. Exponenciální růst časových horizontů AI zrychlil v roce 2024, přičemž nejnovější modely zdvojnásobily svůj obzor přibližně každé tři měsíce. Práce dosud nebyla formálně přezkoumána.

Metr, který postupuje vpřed od roku 2019 do roku 2024, navrhuje, že modely AI budou schopny plnit úkoly, které lidé berou asi měsíc s 50% spolehlivostí do roku 2029, možná ještě dříve.

Jeden měsíc odborných odborných znalostí, jak tento dokument navrhuje, může stačit k zahájení nové společnosti nebo k vědeckým objevům.

Joshua Gans, profesor managementu na University of Toronto v Kanadě, který psal o ekonomii AI, však vysvětluje, že takové předpovědi nejsou zvlášť užitečné. "Extrapolace jsou lákavé, ale stále tolik nevíme o tom, jak bude AI skutečně použita pro tyto předpovědi, aby dávala smysl," říká.

Posuzování lidí versus AI

Tým si vybral 50% úspěšnost, protože byl nejrobustnější pro malé změny v distribuci dat. "Pokud si vyberete velmi nízké nebo velmi vysoké prahy, přidání nebo odstranění jediného úspěšného nebo neúspěšného úkolu odpovídajícím způsobem změní odhad," vysvětluje spoluautor Lawrence Chan.

Rostoucí spolehlivost z 50% na 80% snížila průměrný časový horizont o faktor pěti - i když celková doba zdvojnásobení a trendová linie byla podobná.

Během posledních pěti let byla provedena vylepšení Obecné dovednosti LLMS poháněno především zvýšením měřítka - množství tréninkových dat, doba školení a počtu modelových parametrů. Příspěvek připisuje pokrok v časovém horizontu metricky především ke zlepšení logického uvažování, použití nástroje, opravy chyb a důvěře úkolu.

Přístup METR k posouzení časových horizontů se zabývá některými omezeními stávajících benchmarků AI, které pouze volně odpovídají práci v reálném světě a rychle se stanou „nasycenými“, jak se modely zlepšují. Poskytuje nepřetržité, intuitivní opatření, které lépe zachycuje významný pokrok v průběhu času, říká spoluautor Ben West.

Vedoucí modely AI dosahují nadlidského výkonu v mnoha Benchmark testování, ale zatím měl relativně malý ekonomický dopad, vysvětluje West. Nejnovější výzkum METR nabízí částečnou odpověď na tuto hádanku: Nejlepší modely ukazují časový rámec asi 40 minut a není mnoho ekonomicky cenných prací, které člověk v té době může udělat, řekl West.

Anton Troynikov, výzkumný pracovník AI a podnikatel ze San Francisca v Kalifornii, však vysvětluje, že AI by měla větší ekonomický dopad, pokud by organizace byly ochotnější experimentovat a investovat do efektivně využívání modelů.

  1. Kwa, T. a kol. PRISTRIT na Arxiv https://doi.org/10.48550/arxiv.2503.14499 (2025).

Stáhnout odkazy