Zinātnieku pārsteidza jaunākais ChatGPT modelis o1
Zinātnieki slavē OpenAI jauno ChatGPT modeli o1 par tā iespaidīgajiem sasniegumiem zinātnes atbalsta jomā.

Zinātnieku pārsteidza jaunākais ChatGPT modelis o1
Pētnieki, kas palīdzēja pārbaudīt OpenAI jauno lielo valodas modeli OpenAI o1, saka, ka tas ir liels solis uz priekšu attiecībā uz Tērzēšanas robotu lietderība zinātnei pārstāv.
"Manā kvantu fizikas jomā ir daudz detalizētākas un saskaņotākas atbildes" nekā ar iepriekšējo modeli GPT-4o, saka Mario Krenn, Maksa Planka Gaismas fizikas institūta Mākslīgo zinātnieku laboratorijas vadītājs Erlangenā, Vācijā. Krenns bija daļa no “Sarkanās komandas” zinātnieku grupas, kas testēja o1 pirmsizlaides versiju OpenAI, tehnoloģiju uzņēmumam, kas atrodas Sanfrancisko, Kalifornijā, izpētot robota darbību un pārbaudot drošības apsvērumus.
Kopš ChatGPT publiskā atklāšana 2022. gadā Vidēji lielie valodu modeļi, kas darbina šādus tērzēšanas robotus, ir kļuvuši lielāki un labāki, ar vairāk parametru, lielākām apmācības datu kopām un spēcīgākas prasmes dažādos standartizētos testos.
OpenAI skaidro, ka o1 sērija ir būtiskas izmaiņas uzņēmuma pieejā. Novērotāji ziņo, ka šis AI modelis izceļas ar to, ka tas ir pavadījis vairāk laika noteiktos mācību posmos un ilgāk “domā” par savām atbildēm, padarot to lēnāku, bet spējīgāku — īpaši jomās, kur ir skaidri definētas pareizās un nepareizās atbildes. Uzņēmums piebilst, ka o1 var "pārdomāt sarežģītus uzdevumus un atrisināt sarežģītākas problēmas nekā iepriekšējie dabaszinātņu, programmēšanas un matemātikas modeļi." Pašlaik o1-preview un o1-mini — mazāka, izmaksu ziņā efektīvāka versija, kas piemērota programmēšanai, ir pieejama testēšanai maksājošiem klientiem un noteiktiem izstrādātājiem. Uzņēmums nav publicējis nekādu informāciju par o1 modeļu parametriem vai skaitļošanas jaudu.
Pārspējot maģistrantus
Endrjū Vaits, a ķīmiķis FutureHouse, Sanfrancisko bezpeļņas organizācija, kas koncentrējas uz to, kā AI var izmantot molekulārajā bioloģijā, saka, ka pēdējā pusotra gada laikā novērotāji kopš GPT-4 publiskās izlaišanas, bija pārsteigti un vīlušies par vispārēju uzlabojumu trūkumu attiecībā uz to, kā tērzēšanas roboti atbalsta zinātniskus uzdevumus. Viņš uzskata, ka o1 sērija to ir mainījusi.
Jāatzīmē, ka o1 ir pirmais lielākais valodas modelis, kas pārspēj maģistrantus visgrūtākajā jautājumā — “Dimanta komplekts” — testā, ko sauc par absolventu līmeņa Google proof jautājumu un atbilžu etalonu (GPQA). 1. OpenAI saka, ka tās pētnieki ieguva nedaudz mazāk par 70% GPQA Diamond, savukārt o1 kopumā ieguva 78%, ar īpaši augstu rezultātu 93% fizikā (skatiet “Nākamais līmenis”). Tas ir "ievērojami augstāks par nākamo labāko dokumentēto [čatbotu] veiktspēju," saka Deivids Reins, kurš bija daļa no komandas, kas izstrādāja GPQA. Pašlaik Reins strādā bezpeļņas organizācijā Modeļu novērtēšanas un draudu izpēte Bērklijā, Kalifornijā, kas novērtē AI riskus. "Man šķiet ticami, ka tas ir nozīmīgs un būtisks modeļa galveno spēju uzlabojums," viņš piebilst.
OpenAI pārbaudīja o1 arī starptautiskās matemātikas olimpiādes kvalifikācijas eksāmenā. Iepriekšējais labākais modelis GPT-4o pareizi atrisināja tikai 13% uzdevumu, bet o1 ieguva 83%.
Domāšana procesos
OpenAI o1 darbojas ar domāšanas soļu ķēdi: tas runā par sevi, izmantojot virkni apsvērumu, cenšoties atrisināt problēmu, labojot sevi, kad tā notiek.
OpenAI ir izvēlējies paturēt konkrētās domu soļu ķēdes detaļas noslēpumā — daļēji tāpēc, ka ķēdē var būt kļūdas vai sociāli nepieņemamas “domas”, un daļēji tāpēc, lai aizsargātu korporatīvos noslēpumus par modeļa darbību. Tā vietā o1 piedāvā lietotājam rekonstruētu savas loģikas kopsavilkumu kopā ar atbildēm. Vaits saka, ka nav skaidrs, vai visa domas soļu secība, ja tā tiktu atklāta, varētu līdzināties cilvēka domām.
Jaunajām spējām ir arī savas ēnas puses. OpenAI ziņo, ka tā ir saņēmusi anekdotiskas atsauksmes, ka o1 modeļi “halucinē” — izgudro nepatiesas atbildes – biežāk nekā to priekšgājēji (lai gan uzņēmuma iekšējā o1 pārbaude uzrādīja nedaudz zemāku halucināciju līmeni).
Sarkanās komandas zinātnieki atzīmēja daudzus veidus, kādos o1 bija noderīgs zinātnisko eksperimentu protokolu izstrādē, taču OpenAI saka, ka testētāji arī "uzsvēra drošības informācijas trūkumu par kaitīgiem pasākumiem, piemēram, neizceļot sprādzienbīstamību vai neierosinot neatbilstošas ķīmiskās drošības metodes, norādot uz modeļa neatbilstību drošībai kritiskos uzdevumos."
"Tas joprojām nav pietiekami ideāls vai uzticams, lai nebūtu nepieciešama pārbaude," saka Vaits. Viņš piebilst, ka o1 ir labāk piemērots Vadošie eksperti kā iesācēji. “Iesācējs nevar paskatīties uz o1 ģenerētu žurnālu un saprast, ka tas ir “muļķības”,” viņš saka.
Zinātnes problēmu risinātājs
Krenns uzskata, ka o1 paātrinās zinātni, palīdzot skenēt literatūru, noteikt nepilnības un ieteikt interesantus pētniecības virzienus turpmākajiem pētījumiem. Viņš integrēja o1 rīkā, kuru viņš palīdzēja izstrādāt un kas to padara iespējamu, ko sauc par SciMuse 2. "Tas rada daudz interesantākas idejas nekā GPT-4 vai GPT-4o," viņš saka.
Kails Kabasaress, datu zinātnieks no Bay Area Vides pētniecības institūta Moffettfīldā, Kalifornijā, izmantoja o1, lai veiktu dažas programmēšanas darbības no viņa doktora projekta, kurā tika aprēķināta melno caurumu masa. "Es biju vienkārši pārsteigts," viņš saka, norādot, ka bija nepieciešama aptuveni stunda, lai paveiktu to, kas viņam prasīja vairākus mēnešus.
Bostonas bērnu slimnīcas Masačūsetsā ģenētiķe Katrīna Braunsteina saka, ka slimnīca pašlaik pārbauda vairākas mākslīgā intelekta sistēmas, tostarp o1-preview, lai tādas lietotnes kā saiknes starp pacienta īpašībām un reto slimību gēniem. Viņa saka, ka o1 "ir precīzāks un piedāvā iespējas, kuras, manuprāt, nebija iespējamas no tērzēšanas robota."
-
Rein, D. et al. Iepriekšēja drukāšana vietnē arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).
-
Gu, X. & Krenn, M. Preprint at arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).