AI wkrótce przejmie projekty, które będą kosztować ludzi tygodni

AI wkrótce przejmie projekty, które będą kosztować ludzi tygodni
Obecne systemy sztucznej inteligencji (AI) nie mogą przekraczać ludzi długich zadań, jednak Rapid i mogłoby zamknąć lukę szybciej niż wiele oczekiwano, zgodnie z analizą wiodących modeli Metreley w Kalifornii, organizacja niezrównana, opracowała prawie 170 rzeczywistych zadań w dziedzinie programowania, bezpieczeństwa cybernetycznego, ogólnego myślenia i uczenia się mechanicznego, a następnie ustaliła „ludzką linię podstawową”, poświęcając czas, który wymagał ekspertów do wykonania tych zadań. Następnie zespół opracował kluczową liczbę oceny postępu AI Modele , który nazywa się„ zadaniami czasu, horyzontu czasu ”. Jest to czas, w którym programiści zwykle muszą wykonać zadania, mogą wykonywać modele AI z pewnym wskaźnikiem powodzenia. W przedruku opublikowanym w tym tygodniu w ARXIV donosi, że GPT-2, wczesny duży model głosowy (LLM), który został opublikowany przez Openai w 2019 r., Nie powiodło się we wszystkich zadaniach, które eksperci ludzcy kosztują ponad minutę. Sonet Claude 3.7, który został wydany przez amerykański start-up antropic w lutym, ukończył 50 % zadań, które ludzie zajmą 59 minut. Ogólnie horyzont czasowy 13 wiodących modeli AI podwoił się około siedmiu miesięcy od 2019 r., Według badania. Wzrost wykładniczy horyzontów czasowych AI przyspieszył w 2024 r., A najnowsze modele podwoili ich horyzonty co trzy miesiące. Praca nie została jeszcze formalnie zbadana. W postępach od 2019 do 2024 r. METR sugeruje, że modele AI mogą zarządzać zadaniami do 2029 r., Że ludzie potrzebują około miesiąca, z niezawodnością 50 %, być może nawet wcześniej. Według artykułu miesiąc zaangażowanej ekspertyzy ludzkiej może wystarczyć, aby założyć nową firmę lub dokonać odkryć naukowych. Joshua Gans, profesor zarządzania na University of Toronto w Kanadzie, który pisał o gospodarce AI, wyjaśnia, że takie prognozy nie są szczególnie przydatne. „Ekstrapolacje są kuszące, ale wciąż jest tak wiele, że nie wiemy, w jaki sposób AI jest faktycznie używane, aby te prognozy miały sens” - mówi. Ocena człowieka w porównaniu z ki Zespół wybrał wskaźnik powodzenia 50 %, ponieważ był to najbardziej solidny w porównaniu z niewielkimi zmianami w dystrybucji danych. „Jeśli wybierzesz bardzo niskie lub bardzo wysokie wartości progowe, dodanie lub usunięcie jednego udanego lub nieudanego zadania zmień oszacowanie według”, wyjaśnia Co -Author Lawrence Chan. Wzrost niezawodności z 50 % do 80 % zmniejszył średni czas czasowy o pięć - chociaż ogólny czas podwojenia i linia trendu były podobne. W ciągu ostatnich pięciu lat ulepszenia ogólny umiejętności. LLM Głównie napędzane ze skali wzrasta-ilość danych szkoleniowych, czasem szkolenia i liczby parametrów modelu. Artykuł prowadzi postęp w kluczowej liczbie horyzontu czasowego, głównie do ulepszeń argumentu logicznego, użycia narzędzi, korekcji błędów i pewności siebie w wypełnianiu zadań. Podejście METR do oceny horyzontu czasu dotyczy niektórych ograniczeń istniejących testów testowych AI, które pasują tylko do prawdziwej pracy i są szybko „nasycone”, gdy modele się poprawiają. Oferuje ciągłą, intuicyjną miarę, która lepiej rejestruje znaczne postępy w dłuższym okresie, mówi Mitautor Ben West. Wiodące modele AI osiągają nadludzką wydajność na wielu
kwa, T. i in. Preprint w arxiv (2025).