Forskere imponert over den siste chatgpt -modellen O1

Forskere imponert over den siste chatgpt -modellen O1
Forskere som hjalp til med å teste den nye store språkmodellen fra Openai, Openai O1, sier at det er et stort skritt når det "https://www.nature.com/articles/d41586-023-00340-6" Data-track-category = "Body Text Link"> Bruk av chatbots for Science Representerer.
"I mitt område med kvantefysikk er det mye mer detaljerte og mer sammenhengende svar" enn i den forrige modellen, GPT-4O, sier Mario Krenn, sjef for det kunstige forskerlaboratoriet ved Max Planck Institute for Physics of Light i Erlangen, Tyskland. Krenn tilhørte en gruppe forskere i det 'røde teamet', som testet pre -dateringen fra O1 for Openai, et teknologiselskap med base i San Francisco, California, ved å prøve ut bot og sjekke dem på sikkerhetsproblemer.
Siden ferdigheter i et stort antall standardiserte tester
openaai forklarer at
overskride doktorgradsstudentene Andrew White, A Offentlig publisering av GPT-4 , ble overrasket og skuffet over en generell mangel på forbedringer i støtten til Scientific Tass av chatbots
Bemerkelsesverdig er O1 Den første hovedspråklige modellen som doktorgradsstudenter i det vanskeligste spørsmålet-Diamond’-Set-kalt Graduate-nivå Google-Proof Q & A Benchmark (GPQA) Beats
Openaai testet også O1 under en kvalifiseringstest for International Math Olympiad. Den forrige beste modellen, GPT-4O, løste bare 13 % av oppgavene riktig, mens O1 oppnådde 83 %. Tenk i prosesser Openai O1 jobber med en kjede med minnetrinn: den taler gjennom en rekke hensyn mens du prøver å løse et problem og korrigerer seg selv. Openaai har bestemt seg for å oppbevare detaljene i en gitt tankekjede - delvis fordi kjeden kan inneholde feil eller sosialt ikke -akseptable "tanker", og delvis for å beskytte bedriftens hemmeligheter om hvordan modellen fungerer. I stedet tilbyr O1 et rekonstruert sammendrag av sin logikk for brukeren sammen med svarene sine. Det er uklart, ifølge White, om den komplette sinnskjeden, hvis den ble avslørt, ville ha likheter med menneskelig tenking. De nye ferdighetene har også sine mørke sider. Openai rapporterer at den har mottatt anekdotisk tilbakemelding som O1 modeller "hallusinater" oftere oppfinner falske svar-som forgjengerne (selv om interne tester for O1 viser litt lavere hallusinasjonsgrad). Forskerne fra det røde teamet har funnet mange alternativer for hvordan O1 var nyttige i å utvikle protokoller for vitenskapelige eksperimenter, men Openaai sier at testerne også viste “mangel på sikkerhetsinformasjon om skadelige trinn, som ikke-fjerning av eksplosjonsfarer eller forslag til sikkerhets sikkerhetsmetoder, noe som indikerer". "Det er fremdeles ikke perfekt eller pålitelig nok til at du ikke trenger å sjekkes nøyaktig," sier White. Han legger til at O1 er mer egnet for
problemløser av vitenskap Krenn mener at O1 vil fremskynde vitenskapen ved å bidra til å skanne litteraturen, gjenkjenne hull og foreslå interessante forskningsmetoder for fremtidige studier. Han integrerte O1 i et verktøy som han har utviklet, og som muliggjør dette kalt scimuse 2 . "Det genererer mye mer interessante ideer enn GPT-4 eller GPT-4O," sier han. Kyle Kabasares, en dataforsker ved Bay Area Environmental Research Institute i Moffett Field, California, Bruk O1 for å gjenskape noen programmeringstrinn fra doktorgradsprosjektet, som beregnet massen av sorte hull. "Jeg ble bare overveldet," sier han og legger merke til at O1 trengte omtrent en time for å oppnå det som kostet ham i mange måneder. Catherine Brownstein, genetiker ved Boston Children's Hospital i Massachusetts, sier at sykehuset for tiden tester flere AI -systemer, inkludert O1 -forhåndsvisning, for applikasjoner som å avdekke sammenhenger mellom pasientegenskaper og gener for sjeldne sykdommer. Hun sier at O1 "er mer presis og tilbyr alternativer som jeg ikke trodde de var mulig fra en chat -bot".