Teadlasele avaldas muljet uusim ChatGPT mudel o1
Teadlased kiidavad OpenAI uut ChatGPT mudelit o1 selle muljetavaldavate edusammude eest teaduse toetamisel.

Teadlasele avaldas muljet uusim ChatGPT mudel o1
OpenAI uut suurt keelemudelit OpenAI o1 testida aidanud teadlaste sõnul on see suur samm edasi Vestlusrobotite kasulikkus teadusele esindab.
"Minu kvantfüüsika valdkonnas on palju üksikasjalikumaid ja sidusamaid vastuseid kui eelmise mudeli GPT-4o puhul," ütleb Saksamaal Erlangenis asuva Max Plancki valgusfüüsika instituudi tehisteadlaste labori juht Mario Krenn. Krenn kuulus "Punase meeskonna" teadlaste rühma, kes testis Californias San Franciscos asuva tehnoloogiaettevõtte OpenAI o1 väljalaskeeelset versiooni, pannes robotile oma tempo ja kontrollides turvaprobleeme.
Alates ChatGPT avalik käivitamine 2022. aastal Keskmiselt on sellised vestlusrobotid toidavad suured keelemudelid muutunud suuremaks ja paremaks, rohkemate parameetritega, suuremate koolitusandmete kogumitega ja tugevamad oskused mitmesugustes standardiseeritud testides.
OpenAI selgitab, et o1 seeria kujutab endast põhjapanevat muutust ettevõtte lähenemisviisis. Vaatlejad teatavad, et see tehisintellekti mudel paistab silma, kuna see on teatud õppimisfaasides kulutanud rohkem aega ja "mõtleb" oma vastustele kauem, muutes selle aeglasemaks, kuid võimekamaks – eriti valdkondades, kus õiged ja valed vastused on selgelt määratletud. Ettevõte lisab, et o1 suudab "mõelda läbi keeruliste ülesannete ja lahendada keerulisemaid probleeme kui varasemad teaduse, programmeerimise ja matemaatika mudelid." Praegu on maksvatele klientidele ja teatud arendajatele testimiseks saadaval o1-preview ja o1-mini – väiksem ja kuluefektiivsem programmeerimiseks sobiv versioon. Ettevõte ei ole avaldanud teavet o1 mudelite parameetrite ega arvutusvõimsuse kohta.
Edukamad kraadiõppurid
Andrew White, a keemik San Francisco mittetulundusühing FutureHouse, mis keskendus tehisintellekti rakendamisele molekulaarbioloogias, ütleb, et viimase pooleteise aasta jooksul on vaatlejad alates GPT-4 avalikust väljalaskmisest, olid üllatunud ja pettunud, et vestlusrobotid ei toeta teaduslikke ülesandeid üldiselt. Ta usub, et o1-sari on seda muutnud.
Märkimisväärne on see, et o1 on esimene suurem keelemudel, mis võitis kraadiõppureid kõige keerulisemas küsimuses – teemandikomplektis – testis, mida nimetatakse Graduate-Level Google-Proof Q&A Benchmark (GPQA). 1. OpenAI ütleb, et tema teadlased saavutasid GPQA Diamondis veidi alla 70%, samas kui o1 saavutas üldiselt 78%, eriti kõrge skooriga 93% füüsikas (vt "Järgmine tase"). See on "oluliselt kõrgem kui paremuselt järgmine dokumenteeritud [vestlusroti] jõudlus," ütleb David Rein, kes kuulus GPQA väljatöötamise meeskonda. Praegu töötab Rein Californias Berkeleys mittetulundusühingus Model Evaluation and Threat Research, mis hindab tehisintellektiga seotud riske. "Mulle tundub usutav, et see kujutab endast mudeli põhivõimaluste olulist ja põhjapanevat paranemist," lisab ta.
OpenAI testis o1-d ka rahvusvahelise matemaatikaolümpiaadi kvalifikatsioonieksamil. Eelmine parim mudel GPT-4o lahendas õigesti vaid 13% ülesannetest, o1 aga 83%.
Protsessides mõtlemine
OpenAI o1 töötab mõtlemissammude ahelaga: probleemi lahendamisel proovib see ennast läbi kaaluda, parandades ennast selle käigus.
OpenAI on otsustanud hoida antud mõtte-sammu ahela üksikasju saladuses – osaliselt seetõttu, et kett võib sisaldada vigu või sotsiaalselt vastuvõetamatuid "mõtteid" ja osaliselt kaitsta ettevõtte saladusi mudeli toimimise kohta. Selle asemel pakub o1 kasutajale oma loogika rekonstrueeritud kokkuvõtet koos vastustega. White ütleb, et on ebaselge, kas kogu mõttesammude jada, kui see avaldatakse, oleks inimmõttega sarnasusi.
Uutel võimetel on ka oma varjuküljed. OpenAI teatab, et on saanud anekdootlikku tagasisidet, et o1 mudelid "hallutsineerivad" - leiutavad valevastuseid - sagedamini kui nende eelkäijad (kuigi ettevõtte o1 sisetestid näitasid veidi madalamat hallutsinatsioonide esinemissagedust).
Red Teami teadlased märkisid mitmeid viise, kuidas o1 oli kasulik teaduslike katsete protokollide väljatöötamisel, kuid OpenAI sõnul rõhutasid testijad ka ohutusteabe puudumist kahjulike sammude kohta, näiteks ei toonud esile plahvatusohtu või ei soovitanud sobimatuid kemikaaliohutusmeetodeid, mis viitab mudeli ebapiisavusele ohutuse seisukohalt oluliste ülesannete täitmisel.
"See pole ikka veel piisavalt täiuslik ega usaldusväärne, et seda ei oleks vaja kontrollida, " ütleb White. Ta lisab, et o1 sobib paremini Juhtivad eksperdid algajatena. "Algaja ei suuda o1 loodud logi vaadata ja mõista, et see on jama," ütleb ta.
Teadusprobleemide lahendaja
Krenn usub, et o1 kiirendab teadust, aidates skaneerida kirjandust, tuvastada lünki ja soovitada tulevaste uuringute jaoks huvitavaid uurimisvõimalusi. Ta integreeris o1 tööriista, mida ta aitas välja töötada ja mis teeb selle võimalikuks, nimega SciMuse 2. "See genereerib palju huvitavamaid ideid kui GPT-4 või GPT-4o," ütleb ta.
Kyle Kabasares, Californias Moffett Fieldis asuva Bay Area keskkonnauuringute instituudi andmeteadlane, kasutas o1 mõne programmeerimisetapi tegemiseks oma doktoritööst, mis arvutas mustade aukude massi. "Ma olin lihtsalt löödud," ütleb ta ja märgib, et kulus umbes tund aega, et saavutada see, mis tal kulus mitu kuud.
Massachusettsi Bostoni lastehaigla geneetik Catherine Brownstein ütleb, et haigla katsetab praegu mitmeid tehisintellektisüsteeme, sealhulgas o1-eelvaadet selliste rakenduste jaoks nagu patsiendi omaduste ja haruldaste haiguste geenide vaheliste seoste tuvastamine. Ta ütleb, et o1 "on täpsem ja pakub võimalusi, mida ma ei pidanud vestlusroti abil võimalikuks."
-
Rein, D. jt. Eeltrükk aadressil arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).
-
Gu, X. & Krenn, M. Preprint at arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).