Videnskabsmand imponeret over den seneste ChatGPT-model o1

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Forskere roser OpenAIs nye ChatGPT-model o1 for dens imponerende fremskridt inden for videnskabelig støtte.

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Forskere roser OpenAIs nye ChatGPT-model o1 for dens imponerende fremskridt inden for videnskabelig støtte.

Videnskabsmand imponeret over den seneste ChatGPT-model o1

Forskere, der har været med til at teste OpenAIs nye store sprogmodel, OpenAI o1, siger, at det er et stort skridt fremad mht. Nyttigheden af ​​chatbots til videnskab repræsenterer.

"I mit felt af kvantefysik er der væsentligt mere detaljerede og sammenhængende svar" end med den tidligere model, GPT-4o, siger Mario Krenn, leder af Artificial Scientist Lab ved Max Planck Institute for the Physics of Light i Erlangen, Tyskland. Krenn var en del af en gruppe videnskabsmænd på 'Red Team', som testede pre-release-versionen af ​​o1 for OpenAI, et teknologifirma med base i San Francisco, Californien, der satte botten igennem og tjekkede for sikkerhedsproblemer.

Siden den offentlige lancering af ChatGPT i 2022 I gennemsnit er de store sprogmodeller, der driver sådanne chatbots, blevet større og bedre med flere parametre, større træningsdatasæt og stærkere færdigheder på en række standardiserede tests.

OpenAI forklarer, at o1 serien repræsenterer en grundlæggende ændring i virksomhedens tilgang. Observatører rapporterer, at denne AI-model skiller sig ud, fordi den har brugt mere tid i visse læringsfaser og "tænker" længere på sine svar, hvilket gør den langsommere, men mere dygtig - især på områder, hvor rigtige og forkerte svar er klart definerede. Virksomheden tilføjer, at o1 kan "tænke komplekse opgaver igennem og løse sværere problemer end tidligere modeller inden for naturvidenskab, programmering og matematik." I øjeblikket er o1-preview og o1-mini - en mindre, mere omkostningseffektiv version velegnet til programmering - tilgængelige i test for betalende kunder og visse udviklere. Virksomheden har ikke offentliggjort oplysninger om parametrene eller regnekraften for o1-modellerne.

Udkonkurrerende kandidatstuderende

Andrew White, en kemiker hos FutureHouse, en nonprofitorganisation i San Francisco med fokus på, hvordan kunstig intelligens kan anvendes på molekylærbiologi, siger, at i løbet af det sidste halvandet år har observatører siden den offentlige udgivelse af GPT-4, blev overrasket og skuffet over en generel mangel på forbedring af, hvordan chatbots understøtter videnskabelige opgaver. O1-serien, mener han, har ændret dette.

Bemærkelsesværdigt nok er o1 den første store sprogmodel til at slå kandidatstuderende på det sværeste spørgsmål - 'Diamond'-sættet - i en test kaldet Graduate-Level Google-Proof Q&A Benchmark (GPQA). 1. OpenAI siger, at dets forskere scorede lige under 70% i GPQA Diamond, mens o1 scorede 78% samlet, med en særlig høj score på 93% i fysik (se "Næste niveau"). Det er "betydeligt højere end den næstbedst dokumenterede [chatbot]-ydelse," siger David Rein, som var en del af holdet, der udviklede GPQA. Rein arbejder i øjeblikket hos nonprofit-organisationen Model Evaluation and Threat Research i Berkeley, Californien, som vurderer risiciene ved AI. "Det forekommer mig plausibelt, at dette repræsenterer en væsentlig og grundlæggende forbedring af modellens kerneegenskaber," tilføjer han.

OpenAI testede også o1 i en kvalificerende eksamen til den internationale matematikolympiade. Den tidligere bedste model, GPT-4o, løste kun 13 % af opgaverne korrekt, mens o1 scorede 83 %.

Tænker i processer

OpenAI o1 arbejder med en kæde af tænketrin: den taler sig selv igennem en række overvejelser, mens den forsøger at løse et problem og retter sig selv, mens den går.

OpenAI har valgt at holde detaljerne i en given tanke-trinskæde hemmelige - dels fordi kæden kan indeholde fejl eller socialt uacceptable "tanker", og dels for at beskytte virksomhedens hemmeligheder om, hvordan modellen fungerer. I stedet tilbyder o1 en rekonstrueret oversigt over sin logik til brugeren sammen med dens svar. Det er uklart, siger White, om den fulde rækkefølge af tanketrin, hvis den blev afsløret, ville have nogen ligheder med menneskelig tankegang.

De nye evner har også deres ulemper. OpenAI rapporterer, at det har modtaget anekdotisk feedback om, at o1-modeller "hallucinerer" - opfinder falske svar - oftere end deres forgængere (selvom virksomhedens interne test for o1 viste lidt lavere hallucinationsrater).

Red Team-forskere bemærkede adskillige måder, hvorpå o1 var behjælpelig med at udvikle protokoller til videnskabelige eksperimenter, men OpenAI siger, at testere også "fremhævede en mangel på sikkerhedsinformation om skadelige trin, såsom ikke at fremhæve eksplosionsfarer eller foreslå uhensigtsmæssige kemiske sikkerhedsmetoder, hvilket indikerer, at modellens utilstrækkelige opgaver er kritiske, når det drejer sig om sikkerhedskritiske opgaver."

"Det er stadig ikke perfekt eller pålideligt nok til ikke at have behov for undersøgelse," siger White. Han tilføjer, at o1 er bedre egnet til Førende eksperter som begyndere. "Det er ud over deres umiddelbare evne for en nybegynder at se på en log genereret af o1 og indse, at det er 'nonsens'," siger han.

Videnskabelig problemløser

Krenn mener, at o1 vil accelerere videnskaben ved at hjælpe med at scanne litteraturen, identificere huller og foreslå interessante forskningsmuligheder for fremtidige undersøgelser. Han integrerede o1 i et værktøj, han var med til at udvikle, der gør dette muligt, kaldet SciMuse 2. "Det genererer meget mere interessante ideer end GPT-4 eller GPT-4o," siger han.

Kyle Kabasares, en dataforsker ved Bay Area Environmental Research Institute i Moffett Field, Californien, brugt o1 til at udføre nogle programmeringstrin fra hans doktorgradsprojekt, der beregnede massen af ​​sorte huller. "Jeg blev bare blæst omkuld," siger han og bemærker, at det tog o1 omkring en time at opnå det, der tog ham mange måneder.

Catherine Brownstein, en genetiker ved Boston Children's Hospital i Massachusetts, siger, at hospitalet i øjeblikket tester adskillige AI-systemer, herunder o1-preview, til applikationer som afdækning af sammenhænge mellem patientegenskaber og gener for sjældne sygdomme. Hun siger, at o1 "er mere præcis og tilbyder muligheder, som jeg ikke troede var mulige fra en chatbot."

  1. Rein, D. et al. Fortryk hos arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).

  2. Gu, X. & Krenn, M. Fortryk ved arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).

Download referencer