Znanstveniki, ki so jih navdušili najnovejši model Chatgpt O1

Znanstveniki, ki so jih navdušili najnovejši model Chatgpt O1
Raziskovalci, ki so pomagali pri preizkušanju novega velikega jezikovnega modela iz OpenAI, OpenAI O1 "https://www.nature.com/articles/D41586-023-00340-6" Data-Track-CATEGORY = "Povezava telesa besedila"> Uporaba chatbotov za znanost Predstavlja.
"Na mojem področju kvantne fizike obstajajo veliko bolj podrobni in bolj skladni odgovori" kot v prejšnjem modelu, GPT-4O, pravi Mario Krenn, vodja laboratorija za umetno znanstvenico na Inštitutu Max Planck za fiziko svetlobe v Erlangenu v Nemčiji. Krenn je pripadala skupini znanstvenikov v 'Rdeči ekipi', ki je preizkusila pred -vrsto iz O1 za OpenAI, tehnološko podjetje s sedežem v San Franciscu v Kaliforniji, tako da je preizkusila bot in jih preverjala na varnosti.
Ker spretnosti v velikem številu standardiziranih testov
Openaai explains that the O1 series represents Temeljna sprememba pristopa podjetja. Opazovalci poročajo, da je za ta model AI značilno dejstvo, da je v določenih fazah učenja porabila več časa in "razmišlja" o svojih odgovorih dlje, zaradi česar je počasnejša, a bolj sposobna-še posebej na področjih, kjer so jasno opredeljeni pravilni in napačni odgovori. Podjetje dodaja, da lahko O1 "razmišlja skozi zapletene naloge in reši težje težave kot prejšnji modeli v znanosti, programiranju in matematiki". Trenutno sta O1-Preview in O1-Mini-A Manjša, stroškovno učinkovitejša različica, ki je primerna za programiranje, na voljo za plačilne stranke in nekatere razvijalce v testnem delovanju. Družba ni objavila nobenih informacij o parametrih ali računalniški moči modelov O1.
presegajo doktorske študente
Andrew White, A javna publikacija GPT-4 je bila presenečena in razočarana zaradi splošnega pomanjkanja podpornih serij
Izjemen je O1 prvi glavni jezikovni model, da doktorski študenti v najtežjem vprašanju-"Diamond", imenovani diplomirani diplomirani ravni Google-Proof Q&A Benchmark (GPQA), premaga
OpenAAI je preizkusil tudi O1 med kvalifikacijskim testom za mednarodno matematično olimpijado. Prejšnji najboljši model, GPT-4O, je pravilno rešil le 13 % nalog, medtem ko je O1 dosegel 83 %. Razmislite v procesih OpenAI O1 deluje z verigo spominskih korakov: govori skozi številne premisleke, medtem ko poskuša rešiti težavo in se popraviti. OpenAAI se je odločil, da bo obdržal podrobnosti o določeni verigi misli - deloma tudi zato, ker bi veriga lahko vsebovala napake ali socialno ne -sprejemljive "misli", deloma pa za zaščito korporativnih skrivnosti o tem, kako model deluje. Namesto tega O1 ponuja rekonstruiran povzetek svoje logike za uporabnika skupaj z njegovimi odgovori. Po Whiteu ni jasno, ali bi imela celotna veriga uma, če bi bila razkrita, podobnosti s človeškim razmišljanjem. Nove spretnosti imajo tudi svoje temne strani. OpenAI poroča, da je prejel anekdotične povratne informacije, da O1 modelira "halucinira" lažne odgovore-kot predhodniki (čeprav notranji testi za O1 kažejo nekoliko nižje stopnje halucinacije). Znanstveniki Rdeče ekipe so našli številne možnosti, kako je bil O1 koristni pri razvoju protokolov za znanstvene eksperimente, vendar OpenAAI pravi, da so preizkuševalci pokazali tudi "pomanjkanje varnostnih informacij o škodljivih korakih, kot so neobvladljive nevarnosti eksplozije ali predloge, ki jih prinašajo na varnostni način, ki kaže na napako", kar kaže na neustreznost kemijske varnosti ", kar kaže na neustreznost", kar kaže na napako ", kar kaže na neustreznost" neustreznosti krmiljenja ". "Še vedno ni dovolj popoln ali zanesljiv, da ga ni treba natančno preverjati," pravi White. Dodaja, da je O1 bolj primeren za . "Za začetnike je zunaj njene takojšnje sposobnosti pogleda na protokol, ki ga ustvari O1, in prepoznati, da je" neumnost "," pravi. Reševalec problemov znanosti Krenn verjame, da bo O1 pospešil znanost s pomočjo skeniranja literature, prepoznavanju vrzeli in predlaganju zanimivih raziskovalnih pristopov za prihodnje študije. Integriral je O1 v orodje, ki ga je razvil, in ki omogoča to imenovano scimuse 2 . "Ustvari veliko bolj zanimive ideje kot GPT-4 ali GPT-4O," pravi. Kyle Kabasares, podatkovni znanstvenik na Inštitutu za okoljske raziskave v Bay Area v Moffett Field, Kalifornija, Uporabite O1 za ponovitev nekaterih korakov programiranja iz njegovega doktorskega projekta, ki je izračunal maso črnih lukenj. "Bil sem samo preobremenjen," pravi in opazi, da O1 potrebuje približno eno uro, da dosežem, kar ga je stalo več mesecev. Catherine Brownstein, genetika v otroški bolnišnici v Bostonu v Massachusettsu, pravi, da bolnišnica trenutno testira več sistemov AI, vključno s predogledom O1, za aplikacije, kot so razkrivanje odnosov med značilnostmi pacientov in geni za redke bolezni. Pravi, da je O1 natančnejši in ponuja možnosti, za katere nisem mislil, da so možni iz klepetalnice ". Rein, D. et al. Predprint pri arxivu (2023). gu, x. & Krenn, M. predprint pri arxivu https://doi.org/10.48550/arxiv.2405.17044 (2024). >