Forskare imponerade av den senaste chatgpt -modellen O1

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Forskare berömmer den nya chatgpt -modellen O1 från OpenAI för dess imponerande framsteg inom vetenskapsstöd. (Symbolbild/natur.wiki)

Forskare imponerade av den senaste chatgpt -modellen O1

Forskare som hjälpte till att testa den nya stora språkmodellen från OpenAI, OpenAI O1, säger att det är ett stort steg när det gäller Användning av chatbots för vetenskap Representerar.

"I mitt område med kvantfysik finns det mycket mer detaljerade och mer sammanhängande svar" än i den tidigare modellen, GPT-4O, säger Mario Krenn, chef för Artificial Scientist Lab vid Max Planck Institute for the Physics of Light i Erlangen, Tyskland. Krenn tillhörde en grupp forskare i det "röda teamet", som testade för -datum från O1 för OpenAI, ett teknikföretag baserat i San Francisco, Kalifornien, genom att pröva botten och kontrollera dem på säkerhetsproblem.

Sedan Färdigheter i ett stort antal standardiserade tester .

openAai förklarar att

överskrida doktorander

Andrew White, A Offentlig publicering av GPT-4 , var överraskade och besvikna av en allmän brist på förbättringar i stödet av vetenskapliga uppgifter genom chatbots.

Anmärkningsvärt är o1 Den första stora språkmodellen som doktorander i den svåraste frågan-'Diamond'-Set-Called Graduate-nivå Google-Proof Q & A Benchmark (GPQA) Beats REFERENCES"> CLICK. OpenAI säger att hans forskare uppnådde nästan 70 % i GPQA -diamanten, medan O1 nådde totalt 78 %, med ett särskilt högt resultat av 93 % i fysik (se "Nästa nivå"). Detta är "betydligt högre än den näst bäst dokumenterade prestationen", säger David Rein, som var en del av teamet som utvecklade GPQA. För närvarande arbetar den icke -vinstdrivande organisationsmodellutvärderingen och hotforskningen i Berkeley, Kalifornien, som handlar om utvärderingen av riskerna för AI. "Det verkar troligt för mig att detta representerar en betydande och grundläggande förbättring av modellens kärnfärdigheter," tillägger han.

openaai testade också O1 under ett kvalificeringstest för den internationella matematiska olympiaden. Den tidigare bästa modellen, GPT-4O, löste endast 13 % av uppgifterna korrekt, medan O1 uppnådde 83 %.

tänk i processer

OpenAI O1 fungerar med en kedja av minnessteg: Det talar genom ett antal överväganden medan du försöker lösa ett problem och korrigerar sig själv.

openaai har beslutat att behålla detaljerna i en given tankekedja - delvis för att kedjan kan innehålla fel eller socialt icke -acceptabla "tankar", och delvis för att skydda företagens hemligheter om hur modellen fungerar. Istället erbjuder O1 en rekonstruerad sammanfattning av sin logik för användaren tillsammans med sina svar. Det är enligt White oklart om den fullständiga sinnekedjan, om den avslöjades, skulle ha likheter med mänskligt tänkande.

De nya färdigheterna har också sina mörka sidor. OpenAI rapporterar att den har fått anekdotisk feedback att O1-modellerna "hallucinerar" oftare-uppfyllda falska svar-som deras föregångare (även om interna tester för O1 visar något lägre hallucinationshastigheter).

Forskarna i det röda teamet har hittat många alternativ för hur O1 var till hjälp för att utveckla protokoll för vetenskapliga experiment, men OpenAAI säger att testarna också visade ”brist på säkerhetsinformation om skadliga steg, till exempel att de inte är borttagna av explosionsrisker eller förslagen otillräckliga kemiska säkerhetsmetoder, vilket indikerar att otillräckligheten kommer att göra det till säkerhetsrisker eller förslagen.

"Det är fortfarande inte perfekt eller pålitligt nog för att inte behöva kontrolleras exakt," säger White. Han tillägger att O1 är mer lämplig för . "För en nybörjare är det utanför hennes omedelbara förmåga att titta på ett protokoll som genereras av O1 och inse att det är" nonsens ", säger han.

Problemlösare för vetenskap

KRENN tror att O1 kommer att påskynda vetenskapen genom att hjälpa till att skanna litteraturen, erkänna luckor och föreslå intressanta forskningsmetoder för framtida studier. Han integrerade O1 i ett verktyg som han har utvecklat och som möjliggör detta som kallas SCIMUSE 2 . "Det genererar mycket mer intressanta idéer än GPT-4 eller GPT-4O," säger han.

Kyle Kabasares, en datavetare vid Bay Area Environmental Research Institute i Moffett Field, Kalifornien, Använd O1 för att replikera några programmeringssteg från hans doktorandprojekt, som beräknade massan av svarta hål. "Jag blev bara överväldigad," säger han och märkte att O1 behövde ungefär en timme för att uppnå det som kostade honom i många månader.

Catherine Brownstein, en genetiker på Boston Children’s Hospital i Massachusetts, säger att sjukhuset för närvarande testar flera AI -system, inklusive O1 -förhandsgranskning, för applikationer som att avslöja förhållanden mellan patientens egenskaper och gener för sällsynta sjukdomar. Hon säger att O1 "är mer exakt och erbjuder alternativ som jag inte trodde att de var möjliga från en chattbot".

  1. Rein, D. et al. Förtryck på Arxiv >>> https://doi.org/10.48550/arxiv.2311.12022 (2023).

  2. GU, X. & Krenn, M. Preprint at arxiv https://doi.org/10.48550/arxiv.2405.17044 (2024).

  3. Ladda ner referenser