Forsker imponert over den nyeste ChatGPT-modellen o1

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Forskere berømmer OpenAIs nye ChatGPT-modell o1 for dens imponerende fremskritt innen vitenskapelig støtte.

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Forskere berømmer OpenAIs nye ChatGPT-modell o1 for dens imponerende fremskritt innen vitenskapelig støtte.

Forsker imponert over den nyeste ChatGPT-modellen o1

Forskere som har vært med på å teste OpenAIs nye store språkmodell, OpenAI o1, sier det er et stort fremskritt mht. Nytten av chatbots for vitenskap representerer.

"I mitt felt av kvantefysikk er det betydelig mer detaljerte og sammenhengende svar" enn med den forrige modellen, GPT-4o, sier Mario Krenn, leder av Artificial Scientist Lab ved Max Planck Institute for the Physics of Light i Erlangen, Tyskland. Krenn var en del av en gruppe forskere på 'Red Team' som testet pre-release-versjonen av o1 for OpenAI, et teknologiselskap basert i San Francisco, California, som testet boten og sjekket for sikkerhetsproblemer.

Siden den offentlige lanseringen av ChatGPT i 2022 I gjennomsnitt har de store språkmodellene som driver slike chatboter blitt større og bedre, med flere parametere, større treningsdatasett og sterkere ferdigheter på en rekke standardiserte tester.

OpenAI forklarer at o1 serien representerer en grunnleggende endring i selskapets tilnærming. Observatører rapporterer at denne AI-modellen skiller seg ut fordi den har brukt mer tid i visse læringsfaser og "tenker" lenger på svarene sine, noe som gjør den tregere, men mer kapabel - spesielt på områder der riktige og gale svar er klart definert. Selskapet legger til at o1 kan "tenke gjennom komplekse oppgaver og løse vanskeligere problemer enn tidligere modeller innen naturfag, programmering og matematikk." For øyeblikket er o1-preview og o1-mini – en mindre, mer kostnadseffektiv versjon egnet for programmering – tilgjengelig i testing for betalende kunder og visse utviklere. Selskapet har ikke publisert noen informasjon om parametrene eller datakraften til o1-modellene.

Utkonkurrerende studenter

Andrew White, en kjemiker ved FutureHouse, en ideell organisasjon i San Francisco med fokus på hvordan AI kan brukes på molekylærbiologi, sier at observatører i løpet av det siste halvannet året siden den offentlige utgivelsen av GPT-4, ble overrasket og skuffet over en generell mangel på forbedring i hvordan chatboter støtter vitenskapelige oppgaver. O1-serien mener han har endret dette.

Bemerkelsesverdig nok er o1 den første store språkmodellen som slo kandidatstudenter på det vanskeligste spørsmålet – «Diamond»-settet – i en test kalt Graduate-Level Google-Proof Q&A Benchmark (GPQA). 1. OpenAI sier at forskerne skåret i underkant av 70 % i GPQA-diamanten, mens o1 scoret 78 % totalt, med en spesielt høy score på 93 % i fysikk (se "Neste nivå"). Det er "betydelig høyere enn den nest best dokumenterte [chatbot]-ytelsen," sier David Rein, som var en del av teamet som utviklet GPQA. Rein jobber for tiden ved den ideelle organisasjonen Model Evaluation and Threat Research i Berkeley, California, som vurderer risikoen ved AI. "Det virker plausibelt for meg at dette representerer en betydelig og grunnleggende forbedring i kjernefunksjonene til modellen," legger han til.

OpenAI testet også o1 i en kvalifiserende eksamen for den internasjonale matematikk-olympiade. Den forrige beste modellen, GPT-4o, løste kun 13 % av oppgavene riktig, mens o1 fikk 83 %.

Tenker i prosesser

OpenAI o1 jobber med en kjede av tenketrinn: den snakker seg selv gjennom en rekke betraktninger mens den prøver å løse et problem, og korrigerer seg selv mens det går.

OpenAI har valgt å holde detaljene i en gitt tanketrinnskjede hemmelig – dels fordi kjeden kan inneholde feil eller sosialt uakseptable «tanker», og dels for å beskytte bedriftshemmeligheter om hvordan modellen fungerer. I stedet tilbyr o1 et rekonstruert sammendrag av logikken for brukeren, sammen med svarene. Det er uklart, sier White, om hele rekkefølgen av tanketrinn, hvis de blir avslørt, vil ha noen likheter med menneskelig tanke.

De nye evnene har også sine ulemper. OpenAI rapporterer at de har mottatt anekdotisk tilbakemelding om at o1-modeller «hallusinerer» - finner på falske svar - oftere enn forgjengerne (selv om selskapets interne testing for o1 viste litt lavere hallusinasjonsfrekvenser).

Red Team-forskere bemerket en rekke måter o1 var nyttig i å utvikle protokoller for vitenskapelige eksperimenter, men OpenAI sier at testere også "fremhevet mangel på sikkerhetsinformasjon om skadelige trinn, for eksempel å ikke fremheve eksplosjonsfarer eller foreslå upassende kjemiske sikkerhetsmetoder, noe som indikerer at modellen er utilstrekkelig når det gjelder sikkerhetskritiske oppgaver."

"Det er fortsatt ikke perfekt eller pålitelig nok til å ikke trenge gransking," sier White. Han legger til at o1 er bedre egnet til Ledende eksperter som nybegynnere. "Det er utenfor deres umiddelbare evne for en nybegynner å se på en logg generert av o1 og innse at det er "tull", sier han.

Vitenskapsproblemløser

Krenn mener o1 vil akselerere vitenskapen ved å hjelpe til med å skanne litteraturen, identifisere hull og foreslå interessante forskningsveier for fremtidige studier. Han integrerte o1 i et verktøy han var med på å utvikle som gjør dette mulig, kalt SciMuse 2. "Det genererer mye mer interessante ideer enn GPT-4 eller GPT-4o," sier han.

Kyle Kabasares, en dataforsker ved Bay Area Environmental Research Institute i Moffett Field, California, brukt o1 for å utføre noen programmeringstrinn fra doktorgradsprosjektet hans som beregnet massen av sorte hull. «Jeg ble rett og slett imponert,» sier han, og bemerker at det tok omtrent en time å oppnå det som tok ham mange måneder.

Catherine Brownstein, en genetiker ved Boston Children's Hospital i Massachusetts, sier at sykehuset for tiden tester flere AI-systemer, inkludert o1-preview, for applikasjoner som å avdekke sammenhenger mellom pasientkarakteristikker og gener for sjeldne sykdommer. Hun sier at o1 "er mer nøyaktig og tilbyr alternativer som jeg ikke trodde var mulig fra en chatbot."

  1. Rein, D. et al. Fortrykk på arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).

  2. Gu, X. & Krenn, M. Preprint at arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).

Last ned referanser