Az AI hamarosan átveszi azokat a projekteket, amelyek hetekbe kerülnek az emberekbe

Az AI hamarosan átveszi azokat a projekteket, amelyek hetekbe kerülnek az emberekbe
The current systems of artificial intelligence (AI) cannot exceed people on long tasks, however, Rapid , és a rés gyorsabban bezárhatta volna, mint sokan várták, a vezető modellek elemzése "Go the Data" Go the Data = "Go-to-toSthing" Go the Data = "Go the Data =" Go-tétel ". 1 .
A kaliforniai Metreley nonprofit szervezet csaknem 170 valós feladatot fejlesztett ki a programozás, a kiberbiztonság, az általános gondolkodás és a mechanikus tanulás területén, majd meghatározta az "emberi alapvonalat" azáltal, hogy időt vett igénybe, amelyre szükség volt a szakértőkre ezen feladatok elvégzéséhez.
A csapat ezután kifejlesztett egy kulcsfigurát az AI modellek , amelyet" idő feladatának, időhorizontnak "hívnak. Ez az az idő, amikor a programozóknak általában a feladatokat kell elvégezniük, az AI modelleket egy bizonyos sikerrel végezhetik.
Az ARXIV ezen a héten közzétett preprintben arról számol be, hogy a GPT-2, egy korai nagy hangmodell (LLM), amelyet az OpenAI 2019-ben tett közzé, minden olyan feladat során kudarcot vallott, amelyben az emberi szakértők több mint egy percet fizetnek. A Claude 3.7 Sonnet, amelyet februárban az USA induló antropikus kiadott, elvégezte a feladatok 50 % -át, amelyek szerint az emberek 59 percet vesznek igénybe.
A tanulmány szerint aösszességében a 13 vezető AI modell időhorizontja körülbelül 2019 óta hetente megduplázódott. Az AI időhorizonok exponenciális növekedése 2024 -ben felgyorsult, a legújabb modellek háromhavonta megduplázódtak a látókörükhöz. A munkát még nem vizsgálták hivatalosan.
A 2019 és 2024 közötti előrehaladás során a METR azt sugallja, hogy az AI modellek 2029 -ig képesek kezelni azokat a feladatokat, amelyekre az embereknek körülbelül egy hónapra van szükségük, 50 %-os megbízhatósággal, esetleg még korábban is.
Az elkötelezett emberi szakértelem hónapja a cikk szerint elegendő lehet egy új társaság alapításához vagy tudományos felfedezések készítéséhez.
Joshua Gans, a kanadai Torontói Egyetem menedzsment professzora, aki az AI gazdaságáról írt, elmagyarázza, hogy az ilyen előrejelzések nem különösebben hasznosak. "Az extrapolációk csábítóak, de még mindig annyira van, hogy nem tudjuk, hogyan használják az AI -t, hogy ezek az előrejelzések értelme legyen" - mondja.
Az emberi és a ki
értékeléseA csapat az 50 %-os sikerességi rátát választotta, mert az a legmegfelelőbb volt az adatok eloszlásának kis változásaihoz képest. "Ha nagyon alacsony vagy nagyon magas küszöbértékeket választ, egyetlen sikeres vagy sikertelen feladat hozzáadásával vagy eltávolításával változtatja meg a becslést" -magyarázza Lawrence Chan -engedély.
A megbízhatóság 50 % -ról 80 % -ra történő növekedése az átlagos időhorizontot ötszor csökkentette - bár az általános megduplázódási idő és a trendvonal hasonló volt.
A METR megközelítés az időhorizont értékeléséhez a meglévő AI referenciaértékek néhány korlátozásával foglalkozik, amelyek csak megfelelnek a valódi munkának, és gyorsan „telítettek”, amikor a modellek javulnak. Folyamatos, intuitív intézkedést kínál, amely hosszabb ideig javítja a szignifikáns előrehaladást - mondja Ben West Mitautor.
A vezető AI modellek elérte a emberfeletti teljesítményt sok bátymarking"> bychmares; Viszonylag alacsony gazdasági hatásokkal rendelkezik, magyarázza West.
Anton Troynikov, a kaliforniai San Francisco -i AI kutató és vállalkozó elmagyarázza, hogy az AI nagyobb gazdasági befolyást gyakorol, ha a szervezetek jobban hajlandóak kísérletezni és befektetni a modellek hatékony felhasználásába. kwa, T. et al. Prepress ARXIV " https://doi.org/10.48550/arxiv.2503.14499 (2025).