Znanstvenik navdušen nad najnovejšim modelom ChatGPT o1
Znanstveniki hvalijo nov model OpenAI ChatGPT o1 zaradi izjemnega napredka pri podpori znanosti.

Znanstvenik navdušen nad najnovejšim modelom ChatGPT o1
Raziskovalci, ki so pomagali testirati nov veliki jezikovni model OpenAI, OpenAI o1, pravijo, da je to velik korak naprej v smislu Uporabnost chatbotov za znanost predstavlja.
"Na mojem področju kvantne fizike obstajajo bistveno bolj podrobni in koherentni odgovori" kot pri prejšnjem modelu GPT-4o, pravi Mario Krenn, vodja laboratorija za umetne znanstvenike na Inštitutu Maxa Plancka za fiziko svetlobe v Erlangnu v Nemčiji. Krenn je bil del skupine znanstvenikov v 'rdeči ekipi', ki je testirala predizdajno različico o1 za OpenAI, tehnološko podjetje s sedežem v San Franciscu v Kaliforniji, pri čemer je bota preizkusila in preverila varnostne pomisleke.
Ker javna uvedba ChatGPT leta 2022 V povprečju so veliki jezikovni modeli, ki poganjajo takšne klepetalne robote, postali večji in boljši, z več parametri, večjimi nabori podatkov za usposabljanje in močnejše spretnosti na različnih standardiziranih testih.
OpenAI pojasnjuje, da je serija o1 predstavlja temeljno spremembo v pristopu podjetja. Opazovalci poročajo, da ta model umetne inteligence izstopa, ker je v določenih fazah učenja porabil več časa in dlje "razmišlja" o svojih odgovorih, zaradi česar je počasnejši, a zmogljivejši - zlasti na področjih, kjer so pravilni in napačni odgovori jasno opredeljeni. Podjetje dodaja, da lahko o1 "razmišlja o kompleksnih nalogah in rešuje težje probleme kot prejšnji modeli v znanosti, programiranju in matematiki." Trenutno sta o1-preview in o1-mini — manjša, stroškovno učinkovitejša različica, primerna za programiranje — na voljo v testiranju za plačljive stranke in določene razvijalce. Podjetje ni objavilo nobenih informacij o parametrih ali računalniški moči modelov o1.
Izvrstni podiplomski študenti
Andrej Beli, a kemik pri FutureHouse, neprofitni organizaciji iz San Francisca, ki se osredotoča na uporabo umetne inteligence v molekularni biologiji, pravi, da so opazovalci v zadnjem letu in pol od javne objave GPT-4, so bili presenečeni in razočarani nad splošnim pomanjkanjem izboljšav v tem, kako chatboti podpirajo znanstvene naloge. Serija o1 je po njegovem mnenju to spremenila.
Nenavadno je, da je o1 prvi večji jezikovni model, ki je premagal podiplomske študente pri najtežjem vprašanju – naboru »Diamond« – v testu, imenovanem Primerjalno merilo vprašanj in odgovorov na ravni diplomantov (GPQA). 1. OpenAI pravi, da so njegovi raziskovalci v diamantu GPQA dosegli nekaj manj kot 70 %, medtem ko je o1 na splošno dosegel 78 %, s posebno visokim rezultatom 93 % pri fiziki (glejte »Naslednja raven«). To je "znatno višje od naslednje najbolje dokumentirane uspešnosti [klepetalnice]," pravi David Rein, ki je bil del ekipe, ki je razvila GPQA. Rein trenutno dela pri neprofitni organizaciji za vrednotenje modelov in raziskave groženj v Berkeleyju v Kaliforniji, ki ocenjuje tveganja umetne inteligence. "Zdi se mi verjetno, da to predstavlja pomembno in temeljno izboljšavo osnovnih zmogljivosti modela," dodaja.
OpenAI je preizkusil o1 tudi na kvalifikacijskem izpitu za mednarodno matematično olimpijado. Prejšnji najboljši model GPT-4o je pravilno rešil le 13 % nalog, o1 pa 83 %.
Razmišljanje v procesih
OpenAI o1 deluje z verigo korakov razmišljanja: sam se pogovarja skozi vrsto premislekov, ko poskuša rešiti problem, in se sproti popravlja.
OpenAI se je odločil, da podrobnosti o določeni verigi miselnih korakov ohrani v tajnosti – delno zato, ker lahko veriga vsebuje napake ali družbeno nesprejemljive »misli«, delno pa zaradi zaščite korporativnih skrivnosti o delovanju modela. Namesto tega o1 uporabniku ponuja rekonstruiran povzetek svoje logike skupaj s svojimi odgovori. White pravi, da ni jasno, ali bi bilo celotno zaporedje miselnih korakov, če bi bilo razkrito, podobno človeški misli.
Nove sposobnosti imajo tudi svoje slabosti. OpenAI poroča, da je prejel anekdotične povratne informacije, da modeli o1 »halucinirajo« – izmišljujejo lažne odgovore – pogosteje kot njihovi predhodniki (čeprav je interno testiranje podjetja za o1 pokazalo nekoliko nižje stopnje halucinacij).
Znanstveniki Rdeče ekipe so opazili številne načine, na katere je bil o1 koristen pri razvoju protokolov za znanstvene poskuse, vendar OpenAI pravi, da so preizkuševalci tudi "poudarili pomanjkanje varnostnih informacij o škodljivih korakih, kot je nepoudarjanje nevarnosti eksplozije ali predlaganje neustreznih metod kemične varnosti, kar kaže na neustreznost modela, ko gre za varnostno kritične naloge."
"Še vedno ni popoln ali dovolj zanesljiv, da ne bi potreboval natančnega pregleda," pravi White. Dodaja, da je o1 bolj primeren za Vodilni strokovnjaki kot začetniki. "Za začetnika ni njegove neposredne zmožnosti, da pogleda dnevnik, ki ga ustvari o1, in ugotovi, da je to" nesmisel "," pravi.
Reševalec znanstvenih problemov
Krenn verjame, da bo o1 pospešil znanost s pomočjo pri pregledovanju literature, prepoznavanju vrzeli in predlaganju zanimivih raziskovalnih poti za prihodnje študije. Integriral je o1 v orodje, ki ga je pomagal razviti in ki to omogoča, imenovano SciMuse 2. "Ustvarja veliko bolj zanimive ideje kot GPT-4 ali GPT-4o," pravi.
Kyle Kabasares, podatkovni znanstvenik na Bay Area Environmental Research Institute v Moffett Fieldu v Kaliforniji, uporabil o1 za izvedbo nekaterih korakov programiranja iz njegovega doktorskega projekta, ki je izračunal maso črnih lukenj. »Bil sem naravnost navdušen,« pravi in ugotavlja, da je potreboval približno eno uro, da je dosegel tisto, za kar je potreboval več mesecev.
Catherine Brownstein, genetičarka v Bostonski otroški bolnišnici v Massachusettsu, pravi, da bolnišnica trenutno preizkuša več sistemov umetne inteligence, vključno z o1-predogledom, za aplikacije, kot je odkrivanje povezav med značilnostmi bolnikov in geni za redke bolezni. Pravi, da je o1 "natančnejši in ponuja možnosti, za katere nisem mislila, da so možne s chatbotom."
-
Rein, D. et al. Prednatis pri arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).
-
Gu, X. & Krenn, M. Prednatis na arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).