AI drīz pārņems projektus, kas cilvēkiem maksās nedēļas

AI drīz pārņems projektus, kas cilvēkiem maksās nedēļas
Pašreizējās mākslīgā intelekta sistēmas (AI) nevar pārsniegt cilvēkus ilgos uzdevumos, tomēr ātra un varēja būt aizvērtas plaisu ātrāk nekā daudzi, kas sagaidāms, saskaņā ar vadošo modeļu analīzi 1 .
Bezpeļņas organizācijas Metreley, Kalifornijā, izstrādāja gandrīz 170 reālus uzdevumus programmēšanas, kiberdrošības, vispārējās domāšanas un mehāniskās mācīšanās jomās un pēc tam noteica "cilvēku bāzes līniju", veltot laiku, kas bija nepieciešams ekspertiem, lai veiktu šos uzdevumus.
Pēc tam komanda izstrādāja galveno skaitli, lai novērtētu AI modeļi , ko sauc par" laika, laika horizonta uzdevumiem ". Šis ir laiks, kad programmētājiem parasti ir jāveic uzdevumi, AI modeļus var veikt ar noteiktu panākumu līmeni.
Priekšnoteikumā, kas šonedēļ publicēts ArXIV ziņojumos, ka GPT-2, agrīnais lielais balss modelis (LLM), kuru 2019. gadā publicēja Openai, neizdevās visos uzdevumos, kurus cilvēku eksperti maksā vairāk nekā minūti. Claude 3.7 Sonnet, kuru februārī izlaida ASV sākuma antropic, izpildīja 50 % no uzdevumiem, kas cilvēkiem prasīs 59 minūtes.
Kopumā 13 vadošo AI modeļu laika horizonts kopš 2019. gada ir dubultojies apmēram ik pēc septiņiem mēnešiem, liecina pētījums. AI laika horizontu eksponenciālais pieaugums paātrinājās 2024. gadā, un jaunākie modeļi divkāršo savu redzesloku apmēram ik pēc trim mēnešiem. Darbs vēl nav oficiāli pārbaudīts.
Progresējot no 2019. līdz 2024. gadam, Metr norāda, ka AI modeļi līdz 2029. gadam var pārvaldīt uzdevumus, kas cilvēkiem nepieciešami apmēram mēnesi, ar ticamību 50 %, iespējams, pat agrāk.
Saskaņā ar rakstu var būt pietiekams mēnesis, kas saistīta ar cilvēku kompetenci, lai dibinātu jaunu uzņēmumu vai veiktu zinātniskus atklājumus.
Joshua Gans, Toronto universitātes vadības profesors Kanādā, kurš rakstīja par AI ekonomiku, skaidro, ka šādas prognozes nav īpaši noderīgas. "Ekstrapolācijas ir vilinošas, taču joprojām ir tik daudz, ka mēs nezinām, kā AI faktiski tiek izmantots, lai šīm prognozēm būtu jēga," viņš saka.
Cilvēka un Ki
novērtējumsKomanda izvēlējās panākumu līmeni 50 %, jo tā bija visspēcīgākā, salīdzinot ar nelielām izmaiņām datu sadalījumā. "Ja jūs izvēlaties ļoti zemas vai ļoti augstas sliekšņa vērtības, pievienojot vai noņemot vienu veiksmīgu vai neveiksmīgu uzdevumu, mainiet aprēķinu saskaņā ar," skaidro CO autors Lawrence Chan.
Uzticamības pieaugums no 50 % līdz 80 % samazināja vidējo laika horizontu par piecu koeficientu - lai gan vispārējais divkāršošanas laiks un tendenču līnija bija līdzīgi.
Metrame pieeja laika horizonta novērtēšanai attiecas uz dažiem esošo AI etalonu ierobežojumiem, kas atbilst reālajam darbam un ir ātri “piesātināti”, kad modeļi uzlabojas. Tas piedāvā nepārtrauktu, intuitīvu pasākumu, kas labākā laika posmā uzskaita ievērojamu progresu, saka Mitautors Bens Vests.
Vadošie AI modeļi sasniedz pārcilvēku sniegumu daudzos Antons Troynikov, AI pētnieks un uzņēmējs no Sanfrancisko, Kalifornijā, skaidro, ka AI būtu lielāka ekonomiskā ietekme, ja organizācijas labāk vēlas eksperimentēt un ieguldīt efektīvu modeļu izmantošanu.
-
kwa, T. et al. Priekšrāvums arxiv
Lejupielādēt atsauces