Forskare imponerad av senaste ChatGPT-modellen o1

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Forskare berömmer OpenAI:s nya ChatGPT-modell o1 för dess imponerande framsteg inom vetenskapligt stöd.

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Forskare berömmer OpenAI:s nya ChatGPT-modell o1 för dess imponerande framsteg inom vetenskapligt stöd.

Forskare imponerad av senaste ChatGPT-modellen o1

Forskare som hjälpt till att testa OpenAI:s nya stora språkmodell, OpenAI o1, säger att det är ett stort steg framåt m.t.t. Användbarheten av chatbots för vetenskap representerar.

"Inom mitt område av kvantfysik finns det betydligt mer detaljerade och sammanhängande svar" än med den tidigare modellen, GPT-4o, säger Mario Krenn, chef för Artificial Scientist Lab vid Max Planck Institute for the Physics of Light i Erlangen, Tyskland. Krenn var en del av en grupp forskare i det "röda teamet" som testade pre-release-versionen av o1 för OpenAI, ett teknikföretag baserat i San Francisco, Kalifornien, som testade boten och kollade efter säkerhetsproblem.

Sedan den offentliga lanseringen av ChatGPT 2022 I genomsnitt har de stora språkmodellerna som driver sådana chatbots blivit större och bättre, med fler parametrar, större träningsdatauppsättningar och starkare färdigheter på en mängd olika standardiserade test.

OpenAI förklarar att o1-serien representerar en grundläggande förändring i företagets synsätt. Observatörer rapporterar att den här AI-modellen sticker ut eftersom den har spenderat mer tid i vissa inlärningsfaser och "tänker" längre på sina svar, vilket gör den långsammare men mer kapabel - särskilt inom områden där rätt och fel svar är tydligt definierade. Företaget tillägger att o1 kan "tänka igenom komplexa uppgifter och lösa svårare problem än tidigare modeller inom naturvetenskap, programmering och matematik." För närvarande är o1-preview och o1-mini – en mindre, mer kostnadseffektiv version lämplig för programmering – tillgängliga i testning för betalande kunder och vissa utvecklare. Företaget har inte publicerat någon information om parametrarna eller beräkningskraften för o1-modellerna.

Överlägsna doktorander

Andrew White, a kemist på FutureHouse, en ideell organisation i San Francisco fokuserad på hur AI kan tillämpas på molekylärbiologi, säger att under det senaste och ett halvt året har observatörer sedan den offentliga lanseringen av GPT-4, blev förvånade och besvikna över en allmän brist på förbättring av hur chatbots stödjer vetenskapliga uppgifter. O1-serien tror han har förändrat detta.

Anmärkningsvärt nog är o1 den första stora språkmodellen som slog doktorander i den svåraste frågan - "Diamond" -uppsättningen - i ett test som kallas Graduate-Level Google-Proof Q&A Benchmark (GPQA). 1. OpenAI säger att dess forskare fick knappt 70 % i GPQA-diamanten, medan o1 fick 78 % totalt, med en särskilt hög poäng på 93 % i fysik (se "Nästa nivå"). Det är "betydligt högre än den näst bästa dokumenterade [chatbot]-prestandan", säger David Rein, som var en del av teamet som utvecklade GPQA. Rein currently works at the nonprofit Model Evaluation and Threat Research in Berkeley, California, which assesses the risks of AI. “It seems plausible to me that this represents a significant and fundamental improvement in the core capabilities of the model,” he adds.

OpenAI testade också o1 i ett kvalificeringsprov för den internationella matematikolympiaden. Den tidigare bästa modellen, GPT-4o, löste endast 13 % av uppgifterna korrekt, medan o1 fick 83 %.

Att tänka i processer

OpenAI o1 arbetar med en kedja av tankesteg: den pratar sig igenom en rad överväganden när den försöker lösa ett problem, korrigerar sig själv allt eftersom.

OpenAI har valt att hålla detaljerna i en given tankestegskedja hemlig – dels för att kedjan kan innehålla fel eller socialt oacceptabla "tankar" och dels för att skydda företagshemligheter om hur modellen fungerar. Istället erbjuder o1 en rekonstruerad sammanfattning av dess logik för användaren, tillsammans med dess svar. Det är oklart, säger White, om hela sekvensen av tankesteg, om de avslöjas, skulle ha några likheter med mänskligt tänkande.

De nya förmågorna har också sina baksidor. OpenAI rapporterar att de har fått anekdotisk feedback om att o1-modeller "hallucinerar" - uppfinner falska svar - oftare än sina föregångare (även om företagets interna testning för o1 visade något lägre hallucinationsfrekvens).

Red Team-forskare noterade många sätt på vilka o1 var till hjälp för att utveckla protokoll för vetenskapliga experiment, men OpenAI säger att testare också "markerade bristen på säkerhetsinformation om skadliga steg, som att inte lyfta fram explosionsrisker eller föreslå olämpliga kemikaliesäkerhetsmetoder, vilket indikerar att modellen är otillräcklig när det gäller säkerhetskritiska uppgifter."

"Det är fortfarande inte perfekt eller tillräckligt pålitligt för att inte behöva granskas," säger White. Han tillägger att o1 lämpar sig bättre för Ledande experter som nybörjare. "Det är bortom deras omedelbara förmåga för en nybörjare att titta på en logg som genereras av o1 och inse att det är "nonsens", säger han.

Vetenskaplig problemlösare

Krenn tror att o1 kommer att påskynda vetenskapen genom att hjälpa till att skanna litteraturen, identifiera luckor och föreslå intressanta forskningsvägar för framtida studier. Han integrerade o1 i ett verktyg som han var med och utvecklade som gör detta möjligt, kallat SciMuse 2. "Det genererar mycket mer intressanta idéer än GPT-4 eller GPT-4o", säger han.

Kyle Kabasares, en dataforskare vid Bay Area Environmental Research Institute i Moffett Field, Kalifornien, använd o1 för att göra några programmeringssteg från hans doktorandprojekt som beräknade massan av svarta hål. "Jag blev helt överväldigad", säger han och noterar att det tog o1 ungefär en timme att utföra det som tog honom många månader.

Catherine Brownstein, en genetiker vid Boston Children's Hospital i Massachusetts, säger att sjukhuset för närvarande testar flera AI-system, inklusive o1-preview, för tillämpningar som att avslöja samband mellan patientegenskaper och gener för sällsynta sjukdomar. Hon säger att o1 "är mer exakt och erbjuder alternativ som jag inte trodde var möjliga från en chatbot."

  1. Rein, D. et al. Förtryck på arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).

  2. Gu, X. & Krenn, M. Förtryck vid arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).

Ladda ner referenser