AI čoskoro prevezme projekty, ktoré trvajú týždne ľudí

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Umelá inteligencia sa rýchlo zlepšuje a čoskoro by mohla prijať projekty, ktoré trvajú ľudí, kým ľudia trvajú týždne. Expert Analýza ukazuje, že vedúce modely AI vedú k pokroku a do roku 2029 by mohli dokončiť úlohy s ľudskými znalosťami v kratšom čase.

Künstliche Intelligenz verbessert sich rasant und könnte bald Projekte übernehmen, für die Menschen Wochen benötigen. Expertenanalysen zeigen, dass führende KI-Modelle im Fortschritt sind und bis 2029 Aufgaben mit menschlicher Expertise in kürzerer Zeit bewältigen könnten.
Umelá inteligencia sa rýchlo zlepšuje a čoskoro by mohla prijať projekty, ktoré trvajú ľudí, kým ľudia trvajú týždne. Expert Analýza ukazuje, že vedúce modely AI vedú k pokroku a do roku 2029 by mohli dokončiť úlohy s ľudskými znalosťami v kratšom čase.

AI čoskoro prevezme projekty, ktoré trvajú týždne ľudí

Dnešné systémy umelej inteligencie (AI) nemôžu prekonať ľudí pri dlhých úlohách, ale vyvíjajú sa rýchlo ďalej a mohla by zatvoriť medzeru rýchlejšie, ako mnohí očakávali, podľa analýzy vedúcich modelov 1.

Nezisková organizácia METR v Berkeley v Kalifornii vyvinula takmer 170 úloh v programovaní, kybernetickej bezpečnosti, všeobecnom uvažovaní a strojovom učení, potom vytvorila „ľudskú základnú líniu“ meraním času, ktorý odborníci potrebovali na dokončenie týchto úloh.

Tím potom vyvinul metriku na vyhodnotenie pokroku AI modely, ktorý sa nazýva „časový horizont dokončenia úlohy“. Toto je čas, ktorý zvyčajne potrebuje pre programátorov, aby dokončili úlohy, ktoré môžu modely AI dokončiť určitú mieru úspešnosti.

V predprinte uverejnenom tento týždeň na ARXIV, METR uvádza, že GPT-2, skorý model veľkého jazyka (LLM) vydaný OpenAI v roku 2019, zlyhal pri všetkých úlohách, ktoré vzali ľudských odborníkov viac ako minútu. Claude 3.7 Sonnet, vydaný vo februári americkým startupom Anthropic, dokončil 50% úloh, ktoré budú trvať 59 minút.

Celkovo sa podľa štúdie časový horizont 13 popredných modelov AI zdvojnásobil približne každých sedem mesiacov od roku 2019. Exponenciálny rast časových horizontov AI sa zrýchlil v roku 2024, pričom najnovšie modely zdvojnásobili svoj horizont približne každé tri mesiace. Práca ešte nebola formálne prehodnotená.

METR, ktorý sa posunie vpred od roku 2019 do roku 2024, naznačuje, že modely AI budú schopné dokončiť úlohy, ktoré berú ľudí asi mesiac s 50% spoľahlivosťou do roku 2029, možno ešte skôr.

Jeden mesiac špecializovaných ľudských odborných znalostí, navrhuje, môže stačiť na založenie novej spoločnosti alebo na vedecké objavy.

Joshua Gans, profesor manažmentu na University of Toronto v Kanade, ktorý napísal o ekonomike AI, však vysvetľuje, že takéto predpovede nie sú zvlášť užitočné. „Extrapolácie sú lákavé, ale stále je toho veľa, čo nevieme o tom, ako sa AI skutočne použije na tieto predpovede, aby sa dal zmysel,“ hovorí.

Súdiac ľudí verzus AI

Tím si vybral mieru úspešnosti 50%, pretože bol naj robustnejší pre malé zmeny v distribúcii údajov. „Ak si vyberiete veľmi nízke alebo veľmi vysoké prahové hodnoty, pridanie alebo odstránenie jednej úspešnej alebo neúspešnej úlohy podľa toho zmení odhad,“ vysvetľuje spoluautor Lawrence Chan.

Zvýšenie spoľahlivosti z 50% na 80% znížilo priemerný časový horizont o päť päť - aj keď celkový čas zdvojnásobenia a trendová línia boli podobné.

Za posledných päť rokov sa zlepšili Všeobecné zručnosti LLMS poháňané predovšetkým zvýšením rozsahu - množstvo údajov o školení, čas tréningu a počtu parametrov modelu. Príspevok pripisuje pokrok v metrike časového horizontu predovšetkým na zlepšenie logického zdôvodnenia, používanie nástrojov, korekciu chýb a dôvera úloh.

Prístup METR k hodnoteniu časových horizontov sa zaoberá niektorými obmedzeniami existujúcich referenčných hodnôt AI, ktoré sa len voľne zhodujú s prácou v reálnom svete a rýchlo sa stanú „nasýtení“, keď sa modely zlepšujú. Poskytuje nepretržité a intuitívne opatrenie, ktoré lepšie zachytáva výrazný pokrok v priebehu času, hovorí spoluautor Ben West.

Vedúce modely AI dosahujú nadľudský výkon v mnohých Testovanie referenčných hodnôt, ale doteraz mali relatívne malý ekonomický dopad, vysvetľuje západ. Najnovší výskum METR ponúka čiastočnú odpoveď na túto hádanku: najlepšie modely ukazujú časový rámec asi 40 minút a nie je veľa ekonomicky cennej práce, ktorú človek v tom čase môže urobiť, uviedol West.

Anton Troynikov, výskumný pracovník a podnikateľ AI zo San Francisca v Kalifornii, však vysvetľuje, že AI by mala väčší ekonomický vplyv, ak by organizácie boli ochotnejšie experimentovať a investovať do efektívneho používania modelov.

  1. Kwa, T. a kol. Predtlač v Arxiv https://doi.org/10.48550/arxiv.2503.14499 (2025).

Stiahnite si referencie