Sztuczna inteligencja wkrótce przejmie projekty, które ludziom zajmują tygodnie

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Sztuczna inteligencja szybko się rozwija i może wkrótce podjąć się projektów, których ukończenie zajmuje ludziom tygodnie. Analiza ekspercka pokazuje, że wiodące modele sztucznej inteligencji czynią postępy i do 2029 r. będą mogły wykonywać zadania przy wykorzystaniu wiedzy ludzkiej w krótszym czasie.

Künstliche Intelligenz verbessert sich rasant und könnte bald Projekte übernehmen, für die Menschen Wochen benötigen. Expertenanalysen zeigen, dass führende KI-Modelle im Fortschritt sind und bis 2029 Aufgaben mit menschlicher Expertise in kürzerer Zeit bewältigen könnten.
Sztuczna inteligencja szybko się rozwija i może wkrótce podjąć się projektów, których ukończenie zajmuje ludziom tygodnie. Analiza ekspercka pokazuje, że wiodące modele sztucznej inteligencji czynią postępy i do 2029 r. będą mogły wykonywać zadania przy wykorzystaniu wiedzy ludzkiej w krótszym czasie.

Sztuczna inteligencja wkrótce przejmie projekty, które ludziom zajmują tygodnie

Dzisiejsze systemy sztucznej inteligencji (AI) nie są w stanie przewyższyć ludzi w przypadku długich zadań, ale ewoluują wartko dalej i – jak wynika z analizy wiodących modeli – mogłyby zamknąć tę lukę szybciej, niż wielu się spodziewało 1.

Organizacja non-profit METR z siedzibą w Berkeley w Kalifornii opracowała prawie 170 rzeczywistych zadań z zakresu programowania, cyberbezpieczeństwa, ogólnego rozumowania i uczenia maszynowego, a następnie ustaliła „ludzki punkt odniesienia”, mierząc czas potrzebny ekspertom na wykonanie tych zadań.

Następnie zespół opracował miernik umożliwiający ocenę postępu Modele sztucznej inteligencji, który nazywany jest „horyzontem czasu realizacji zadania”. Jest to czas, jaki zazwyczaj zajmuje programistom wykonanie zadań, które modele AI mogą wykonać z określonym współczynnikiem powodzenia.

W wstępnym przedruku opublikowanym w tym tygodniu na arXiv METR informuje, że GPT-2, wczesny model dużego języka (LLM) wydany przez OpenAI w 2019 r., nie powiódł się we wszystkich zadaniach, które zajmowały ekspertom ponad minutę. Claude 3.7 Sonnet, wydany w lutym przez amerykański start-up Anthropic, wykonał 50% zadań, które ludziom zajmowałyby 59 minut.

Z badania wynika, że ​​ogólnie rzecz biorąc, horyzont czasowy 13 wiodących modeli sztucznej inteligencji podwaja się od 2019 r. mniej więcej co siedem miesięcy. Wykładniczy wzrost horyzontów czasowych sztucznej inteligencji przyspieszył w 2024 r., a najnowsze modele podwajają swój horyzont mniej więcej co trzy miesiące. Praca nie została jeszcze formalnie zrecenzowana.

Jeśli chodzi o okres od 2019 r. do 2024 r., METR sugeruje, że do 2029 r., a może nawet wcześniej, modele sztucznej inteligencji będą w stanie wykonywać zadania, które zajmują ludziom około miesiąca z 50% niezawodnością.

Z artykułu wynika, że ​​miesiąc specjalistycznej wiedzy specjalistycznej może wystarczyć do założenia nowej firmy lub dokonania odkryć naukowych.

Jednak Joshua Gans, profesor zarządzania na Uniwersytecie w Toronto w Kanadzie, który pisał o ekonomii AI, wyjaśnia, że ​​takie przewidywania nie są szczególnie przydatne. „Ekstrapolacje są kuszące, ale nadal nie wiemy zbyt wiele na temat tego, w jaki sposób sztuczna inteligencja będzie faktycznie wykorzystywana, aby przewidywania miały sens” – mówi.

Ocena ludzi kontra sztuczna inteligencja

Zespół wybrał 50% wskaźnik sukcesu, ponieważ był on najbardziej odporny na niewielkie zmiany w rozkładzie danych. „Jeśli wybierzesz bardzo niskie lub bardzo wysokie progi, dodanie lub usunięcie pojedynczego udanego lub nieudanego zadania znacznie zmieni szacunki” – wyjaśnia współautor Lawrence Chan.

Zwiększenie niezawodności z 50% do 80% skróciło średni horyzont czasowy pięciokrotnie – mimo że ogólny czas podwojenia i linia trendu były podobne.

W ciągu ostatnich pięciu lat wprowadzono ulepszenia w zakresie ogólne umiejętności LLM napędzany głównie wzrostem skali — ilością danych szkoleniowych, czasem uczenia i liczbą parametrów modelu. W artykule postęp w metryce horyzontu czasowego przypisuje się przede wszystkim poprawie logicznego rozumowania, użyciu narzędzi, korekcji błędów i pewności wykonania zadań.

Podejście METR do oceny horyzontów czasowych uwzględnia niektóre ograniczenia istniejących testów porównawczych AI, które jedynie luźno odpowiadają pracy w świecie rzeczywistym i szybko się „nasycają” w miarę ulepszania modeli. Zapewnia ciągłą, intuicyjną miarę, która lepiej oddaje znaczny postęp w czasie, mówi współautor Ben West.

Wiodące modele sztucznej inteligencji w wielu przypadkach osiągają nadludzką wydajność Testy porównawcze, ale jak dotąd miały stosunkowo niewielki wpływ gospodarczy, wyjaśnia West. Najnowsze badania METR dają częściową odpowiedź na tę zagadkę: najlepsze modele pokazują przedział czasowy wynoszący około 40 minut, a w tym czasie nie można wykonać zbyt wiele wartościowej ekonomicznie pracy, powiedział West.

Jednak Anton Troynikov, badacz sztucznej inteligencji i przedsiębiorca z San Francisco w Kalifornii, wyjaśnia, że ​​sztuczna inteligencja miałaby większy wpływ gospodarczy, gdyby organizacje były bardziej skłonne do eksperymentowania i inwestowania w efektywne wykorzystanie modeli.

  1. Kwa, T. i in. Przeddruk w arXiv https://doi.org/10.48550/arXiv.2503.14499 (2025).

Pobierz referencje