AI wkrótce przejmie projekty, które będą kosztować ludzi tygodni

AI wkrótce przejmie projekty, które będą kosztować ludzi tygodni

Obecne systemy sztucznej inteligencji (AI) nie mogą przekraczać ludzi długich zadań, jednak Rapid i mogłoby zamknąć lukę szybciej niż wiele oczekiwano, zgodnie z analizą wiodących modeli AI Modele , który nazywa się„ zadaniami czasu, horyzontu czasu ”. Jest to czas, w którym programiści zwykle muszą wykonać zadania, mogą wykonywać modele AI z pewnym wskaźnikiem powodzenia.

W przedruku opublikowanym w tym tygodniu w ARXIV donosi, że GPT-2, wczesny duży model głosowy (LLM), który został opublikowany przez Openai w 2019 r., Nie powiodło się we wszystkich zadaniach, które eksperci ludzcy kosztują ponad minutę. Sonet Claude 3.7, który został wydany przez amerykański start-up antropic w lutym, ukończył 50 % zadań, które ludzie zajmą 59 minut.

Ogólnie

Ogólnie horyzont czasowy 13 wiodących modeli AI podwoił się około siedmiu miesięcy od 2019 r., Według badania. Wzrost wykładniczy horyzontów czasowych AI przyspieszył w 2024 r., A najnowsze modele podwoili ich horyzonty co trzy miesiące. Praca nie została jeszcze formalnie zbadana.

W postępach od 2019 do 2024 r. METR sugeruje, że modele AI mogą zarządzać zadaniami do 2029 r., Że ludzie potrzebują około miesiąca, z niezawodnością 50 %, być może nawet wcześniej.

Według artykułu miesiąc zaangażowanej ekspertyzy ludzkiej może wystarczyć, aby założyć nową firmę lub dokonać odkryć naukowych.

Joshua Gans, profesor zarządzania na University of Toronto w Kanadzie, który pisał o gospodarce AI, wyjaśnia, że ​​takie prognozy nie są szczególnie przydatne. „Ekstrapolacje są kuszące, ale wciąż jest tak wiele, że nie wiemy, w jaki sposób AI jest faktycznie używane, aby te prognozy miały sens” - mówi.

Ocena człowieka w porównaniu z ki

Zespół wybrał wskaźnik powodzenia 50 %, ponieważ był to najbardziej solidny w porównaniu z niewielkimi zmianami w dystrybucji danych. „Jeśli wybierzesz bardzo niskie lub bardzo wysokie wartości progowe, dodanie lub usunięcie jednego udanego lub nieudanego zadania zmień oszacowanie według”, wyjaśnia Co -Author Lawrence Chan.

Wzrost niezawodności z 50 % do 80 % zmniejszył średni czas czasowy o pięć - chociaż ogólny czas podwojenia i linia trendu były podobne.

W ciągu ostatnich pięciu lat ulepszenia ogólny umiejętności. LLM Głównie napędzane ze skali wzrasta-ilość danych szkoleniowych, czasem szkolenia i liczby parametrów modelu. Artykuł prowadzi postęp w kluczowej liczbie horyzontu czasowego, głównie do ulepszeń argumentu logicznego, użycia narzędzi, korekcji błędów i pewności siebie w wypełnianiu zadań.

Podejście METR do oceny horyzontu czasu dotyczy niektórych ograniczeń istniejących testów testowych AI, które pasują tylko do prawdziwej pracy i są szybko „nasycone”, gdy modele się poprawiają. Oferuje ciągłą, intuicyjną miarę, która lepiej rejestruje znaczne postępy w dłuższym okresie, mówi Mitautor Ben West.

Wiodące modele AI osiągają nadludzką wydajność na wielu

  • kwa, T. i in. Preprint w arxiv (2025).

  • .sidebar { width: 300px; min-width:300px; position: sticky; top: 0; align-self: flex-start; } .contentwrapper { display: flex ; gap: 20px; overflow-wrap: anywhere; } @media (max-width:768px){ .contentwrapper { flex-direction: column; } .sidebar{display:none;} } .sidebar_sharing { display: flex; justify-content: space-between; } .sidebar_sharing a { background-color: #e6e6e6; padding: 5px 10px; margin: 0; font-size: .95rem; transform: none; border-radius: 5px; display: inline-block; text-decoration: none; color:#333; display: inline-flex; justify-content: space-between; } .sidebar_sharing a:hover { background-color: #333; color:#fff; } .sidebar_box { padding: 15px; margin-bottom: 20px; box-shadow: 0 2px 5px rgba(0, 0, 0, .1); border-radius: 5px; margin-top: 20px; } a.social__item { color: black; } .translate-dropdown { background-color: #e6e6e6; padding: 5px 10px; margin: 0; font-size: .8em; transform: none; border-radius: 5px; display: inline-block; text-decoration: none; color: #333; margin-bottom: 8px; } .translate-dropdown { position: relative; display: inline-flex; align-items: center; width: 100%; justify-content: space-between; height: 36px; } .translate-dropdown label { margin-right: 10px; color: #000; font-size: .95rem; } .article-meta { gap:0 !important; } .author-label, .modified-label, .published-label, modified-label { font-weight: 300 !important; } .date_autor_sidebar { background-color: #e6e6e6; padding: 5px 10px; margin: 0; font-size: .8em; transform: none; border-radius: 5px; text-decoration: none; color: #333; display: flex; justify-content: space-between; margin-bottom: 8px; } .sidebar_autor { background: #333; border-radius: 4px; color: #fff; padding: 0px 5px; font-size: .95rem; } time.sidebar_time, .translateSelectlabel, sidebar_time { margin-top: 2px; color:#000; font-style:normal; font-size:.95rem; } .sidebar_updated_time { background-color: #e6e6e6; padding: 5px 10px; margin: 0; font-size: .8em; transform: none; border-radius: 5px; text-decoration: none; color: #333; display: flex; justify-content: space-between; margin-bottom: 8px; } time.sidebar_updated_time_inner { background: #333; border-radius: 4px; color: #fff;; padding: 2px 6px; } .translate-dropdown .translate { color: #fff; !important; background-color: #333; } .translate-dropdown .translate:hover { color: #fff; !important; background-color: #2f845b !important; } .share-button svg, .translate-dropdown .translate svg { fill: #fff; } span.modified-label { margin-top: 2px; color: #000; font-size: .95rem; font-weight: normal !important; } .ad_sidebar{ padding:0; border: none; } .ad_leaderboard { margin-top: 10px; margin-bottom: 10px; } .pdf_sidebar:hover { background: #2f845b; } span.sidebar_time { font-size: .95rem; margin-top: 3px; color: #000; } table.wp-block-table { white-space: normal; } input {padding: 8px;width: 200px;border: 1px solid #ddd;border-radius: 5px;} .comments { margin-top: 30px; } .comments ul { list-style: none; padding: 0; } .comments li { border-bottom: 1px solid #ddd; padding: 10px 0; } .comment-form { margin-top: 15px; display: flex; flex-direction: column; gap: 10px; } .comment-form textarea { width: 100%; padding: 8px; border: 1px solid #ddd; border-radius: 5px;} .comment-form button { align-self: flex-start; background: #333; color:#fff; border:0; padding:8px 15px; border-radius:5px; cursor:pointer; } .comment-form button:hover { background: #2f845b; }

    Kommentare (0)