AI wkrótce przejmie projekty, które będą kosztować ludzi tygodni

Künstliche Intelligenz verbessert sich rasant und könnte bald Projekte übernehmen, für die Menschen Wochen benötigen. Expertenanalysen zeigen, dass führende KI-Modelle im Fortschritt sind und bis 2029 Aufgaben mit menschlicher Expertise in kürzerer Zeit bewältigen könnten.
Sztuczna inteligencja szybko się poprawia i może wkrótce przejąć projekty, których ludzie potrzebują przez tygodnie. Analizy ekspertów pokazują, że wiodące modele AI są w toku i mogą poradzić sobie z ludzką wiedzą w krótszym czasie do 2029 roku. (Symbolbild/natur.wiki)

AI wkrótce przejmie projekty, które będą kosztować ludzi tygodni

Obecne systemy sztucznej inteligencji (AI) nie mogą przekraczać ludzi długich zadań, jednak Rapid i mogłoby zamknąć lukę szybciej niż wiele oczekiwano, zgodnie z analizą wiodących modeli AI Modele , który nazywa się„ zadaniami czasu, horyzontu czasu ”. Jest to czas, w którym programiści zwykle muszą wykonać zadania, mogą wykonywać modele AI z pewnym wskaźnikiem powodzenia.

W przedruku opublikowanym w tym tygodniu w ARXIV donosi, że GPT-2, wczesny duży model głosowy (LLM), który został opublikowany przez Openai w 2019 r., Nie powiodło się we wszystkich zadaniach, które eksperci ludzcy kosztują ponad minutę. Sonet Claude 3.7, który został wydany przez amerykański start-up antropic w lutym, ukończył 50 % zadań, które ludzie zajmą 59 minut.

Ogólnie

Ogólnie horyzont czasowy 13 wiodących modeli AI podwoił się około siedmiu miesięcy od 2019 r., Według badania. Wzrost wykładniczy horyzontów czasowych AI przyspieszył w 2024 r., A najnowsze modele podwoili ich horyzonty co trzy miesiące. Praca nie została jeszcze formalnie zbadana.

W postępach od 2019 do 2024 r. METR sugeruje, że modele AI mogą zarządzać zadaniami do 2029 r., Że ludzie potrzebują około miesiąca, z niezawodnością 50 %, być może nawet wcześniej.

Według artykułu miesiąc zaangażowanej ekspertyzy ludzkiej może wystarczyć, aby założyć nową firmę lub dokonać odkryć naukowych.

Joshua Gans, profesor zarządzania na University of Toronto w Kanadzie, który pisał o gospodarce AI, wyjaśnia, że ​​takie prognozy nie są szczególnie przydatne. „Ekstrapolacje są kuszące, ale wciąż jest tak wiele, że nie wiemy, w jaki sposób AI jest faktycznie używane, aby te prognozy miały sens” - mówi.

Ocena człowieka w porównaniu z ki

Zespół wybrał wskaźnik powodzenia 50 %, ponieważ był to najbardziej solidny w porównaniu z niewielkimi zmianami w dystrybucji danych. „Jeśli wybierzesz bardzo niskie lub bardzo wysokie wartości progowe, dodanie lub usunięcie jednego udanego lub nieudanego zadania zmień oszacowanie według”, wyjaśnia Co -Author Lawrence Chan.

Wzrost niezawodności z 50 % do 80 % zmniejszył średni czas czasowy o pięć - chociaż ogólny czas podwojenia i linia trendu były podobne.

W ciągu ostatnich pięciu lat ulepszenia ogólny umiejętności. LLM Głównie napędzane ze skali wzrasta-ilość danych szkoleniowych, czasem szkolenia i liczby parametrów modelu. Artykuł prowadzi postęp w kluczowej liczbie horyzontu czasowego, głównie do ulepszeń argumentu logicznego, użycia narzędzi, korekcji błędów i pewności siebie w wypełnianiu zadań.

Podejście METR do oceny horyzontu czasu dotyczy niektórych ograniczeń istniejących testów testowych AI, które pasują tylko do prawdziwej pracy i są szybko „nasycone”, gdy modele się poprawiają. Oferuje ciągłą, intuicyjną miarę, która lepiej rejestruje znaczne postępy w dłuższym okresie, mówi Mitautor Ben West.

Wiodące modele AI osiągają nadludzką wydajność na wielu

  • kwa, T. i in. Preprint w arxiv (2025).