Forskere imponeret over den nyeste ChatGpt -model O1

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Forskere roser den nye ChatGpt -model O1 fra Openai for sin imponerende fremgang inden for videnskabsstøtte. (Symbolbild/natur.wiki)

Forskere imponeret over den nyeste ChatGpt -model O1

M "https://www.nature.com/articles/d41586-023-00340-6" Data-track-category = "Body Text Link"> Brug af chatbots til videnskab repræsenterer.

"I mit område med kvantefysik er der meget mere detaljerede og mere sammenhængende svar" end i den forrige model, siger GPT-4O, Mario Krenn, leder af det kunstige videnskabsmandslaboratorium ved Max Planck Institute for Physics of Light i Erlangen, Tyskland. Krenn tilhørte en gruppe forskere i det 'røde team', der testede foruddateringen fra O1 for Openai, et teknologiselskab med base i San Francisco, Californien, ved at prøve BOT og kontrollere dem på sikkerhedsmæssige bekymringer.

M large language models that drive such chatbots, on average greater and better, with more parameters, larger training data sets and færdigheder i et stort antal standardiserede tests

openaai forklarer, at

overskride doktorands

M Non-profit organisation i San Francisco, der fokuserer på, hvordan AI kan bruges i molekylærbiologi, siger, at observatør i det sidste halvandet år HREF = "https://www.nature.com/articles/D41586-023-00816-5" Data-Track = "klik" Data-LABEL = "https://www.nature.com/articles/D41586-00816-5" Data-track-kategori = "Body Text"> Offentlig publikation af GPT-4 , blev overrasket og skuffet over en generel mangel på forbedringer i støtte fra videnskabelige opgaver fra chatbots

Bemærkelsesværdigt er O1 Den første store sprogmodel, som doktorgradsstuderende i de mest vanskelige spørgsmål-de 'diamant'-sæt-kaldet kandidatniveau Google-proof Q & A Benchmark (GPQA) slår 1 . Openai oplyser, at hans forskere opnåede næsten 70 % i GPQA -diamanten, mens O1 nåede i alt 78 %, med et særligt højt resultat på 93 % i fysik (se "Næste niveau"). Dette er "betydeligt højere end den næste bedste dokumenterede præstation," siger David Rein, der var en del af holdet, der udviklede GPQA. I øjeblikket arbejder den non -profit organisationsmodelevaluering og trusselforskning i Berkeley, Californien, der beskæftiger sig med evalueringen af ​​risikoen for AI. "Det forekommer plausibelt for mig, at dette repræsenterer en betydelig og grundlæggende forbedring af modellens kernefærdigheder," tilføjer han.

Openaai testede også O1 under en kvalifikationstest for International Math Olympiad. Den tidligere bedste model, GPT-4O, løste kun 13 % af opgaverne korrekt, mens O1 opnåede 83 %.

tænk i processer

Openai O1 arbejder med en kæde af mindestrin: Det taler gennem en række overvejelser, mens man prøver at løse et problem og korrigerer sig selv.

Openaai har besluttet at beholde detaljerne i en given tankekæde - delvis fordi kæden kunne indeholde fejl eller socialt ikke -acceptable "tanker", og dels for at beskytte virksomhedshemmeligheder om, hvordan modellen fungerer. I stedet tilbyder O1 et rekonstrueret resume af sin logik for brugeren sammen med sine svar. Ifølge White er det uklart, om den komplette sindskæde, hvis den blev afsløret, ville have ligheder med menneskelig tænkning.

De nye færdigheder har også deres mørke sider. Openai rapporterer, at det har modtaget anekdotisk feedback, at O1-modellerne "hallucinerer" oftere opfinder falske svar-som deres forgængere (selvom interne test for O1 viser lidt lavere hallucinationshastigheder).

Forskerne fra det røde team har fundet adskillige muligheder for, hvordan O1 var nyttige til at udvikle protokoller til videnskabelige eksperimenter, men Openaai siger, at testerne også viste "mangel på sikkerhedsoplysninger om skadelige trin, såsom ikke-removalen for eksplosionsriser eller de forslag, der er utilstrækkelige, kemiske sikkerhedsmetoder, som indikerer utilstrækkeligheden af ​​modellen, når det kommer til sikkerhedsmæssige farer eller de forslag, der vil tilstrækkelige.

"Det er stadig ikke perfekt eller pålideligt nok til ikke at skulle kontrolleres nøjagtigt," siger White. He adds that O1 is more suitable for to lead experts as beginners . "For en begynder er det uden for hendes øjeblikkelige evne til at se på en protokol genereret af O1 og at erkende, at det er" nonsens "," siger han.

Problem Solver of Science

Krenn mener, at O1 vil fremskynde videnskaben ved at hjælpe med at scanne litteraturen, anerkende huller og foreslå interessante forskningsmetoder til fremtidige studier. Han integrerede O1 i et værktøj, som han har udviklet, og som muliggør dette kaldet scimuse 2 . "Det genererer meget mere interessante ideer end GPT-4 eller GPT-4O," siger han.

Kyle Kabasares, en dataforsker ved Bay Area Environmental Research Institute i Moffett Field, Californien, Brug O1 til at gentage nogle programmeringstrin fra hans doktorgradsprojekt, der beregnet massen af ​​sorte huller. ”Jeg var bare overvældet,” siger han og bemærkede, at O1 havde brug for cirka en time for at opnå det, der kostede ham i mange måneder.

Catherine Brownstein, en genetiker ved Boston Children’s Hospital i Massachusetts, siger, at hospitalet i øjeblikket tester flere AI -systemer, herunder O1 -forhåndsvisning, til applikationer som at afdække forhold mellem patientkarakteristika og gener for sjældne sygdomme. Hun siger, at O1 "er mere præcis og tilbyder muligheder, som jeg ikke troede, de var mulige fra en chatbot".

  1. >>

    Rein, D. et al. Preprint at arxiv https://doi.org/10.48550/arxiv.2311.12022 (2023).

  2. >

    Gu, X. & Krenn, M. fortryk på arxiv https://doi.org/10.48550/arxiv.2405.17044 (2024).

  3. Download referencer