Wetenschapper onder de indruk van het nieuwste ChatGPT-model o1

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Wetenschappers prijzen OpenAI's nieuwe ChatGPT-model o1 vanwege de indrukwekkende vooruitgang op het gebied van wetenschappelijke ondersteuning.

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Wetenschappers prijzen OpenAI's nieuwe ChatGPT-model o1 vanwege de indrukwekkende vooruitgang op het gebied van wetenschappelijke ondersteuning.

Wetenschapper onder de indruk van het nieuwste ChatGPT-model o1

Onderzoekers die hebben geholpen bij het testen van OpenAI's nieuwe grote taalmodel, OpenAI o1, zeggen dat het een grote stap voorwaarts is in termen van Nut van chatbots voor de wetenschap vertegenwoordigt.

“Op mijn gebied van de kwantumfysica zijn er aanzienlijk gedetailleerdere en coherentere antwoorden” dan bij het vorige model, GPT-4o, zegt Mario Krenn, hoofd van het Artificial Scientist Lab van het Max Planck Instituut voor de Fysica van Licht in Erlangen, Duitsland. Krenn maakte deel uit van een groep wetenschappers van het 'Red Team' die de pre-releaseversie van o1 testten voor OpenAI, een technologiebedrijf gevestigd in San Francisco, Californië, waarbij ze de bot op de proef stelden en controleerden op beveiligingsproblemen.

Sinds de publieke lancering van ChatGPT in 2022 Gemiddeld zijn de grote taalmodellen die dergelijke chatbots aandrijven groter en beter geworden, met meer parameters, grotere trainingsdatasets en sterkere vaardigheden op een verscheidenheid aan gestandaardiseerde tests.

OpenAI legt uit dat de o1 serie vertegenwoordigt een fundamentele verandering in de aanpak van het bedrijf. Waarnemers melden dat dit AI-model opvalt omdat het meer tijd in bepaalde leerfasen heeft doorgebracht en langer over zijn antwoorden ‘nadenkt’, waardoor het langzamer maar capabeler wordt – vooral op gebieden waar goede en foute antwoorden duidelijk zijn gedefinieerd. Het bedrijf voegt eraan toe dat o1 “complexe taken kan doordenken en moeilijkere problemen kan oplossen dan eerdere modellen in de wetenschap, programmeren en wiskunde.” Momenteel zijn o1-preview en o1-mini – een kleinere, meer kosteneffectieve versie die geschikt is voor programmeren – beschikbaar als testversie voor betalende klanten en bepaalde ontwikkelaars. Het bedrijf heeft geen informatie gepubliceerd over de parameters of rekenkracht van de o1-modellen.

Beter presterende studenten

Andries Wit, een scheikundige bij FutureHouse, een non-profitorganisatie uit San Francisco die zich richt op de manier waarop AI kan worden toegepast op de moleculaire biologie, zegt dat waarnemers de afgelopen anderhalf jaar sinds de publieke release van GPT-4, waren verrast en teleurgesteld door een algemeen gebrek aan verbetering in de manier waarop chatbots wetenschappelijke taken ondersteunen. De o1-serie heeft volgens hem hierin verandering gebracht.

Opmerkelijk is dat o1 het eerste grote taalmodel is dat afgestudeerde studenten verslaat op de moeilijkste vraag – de ‘Diamond’-set – in een test die de Graduate-Level Google-Proof Q&A Benchmark (GPQA) wordt genoemd. 1. OpenAI zegt dat zijn onderzoekers iets minder dan 70% scoorden in de GPQA Diamond, terwijl o1 in totaal 78% scoorde, met een bijzonder hoge score van 93% in natuurkunde (zie “Next Level”). Dat is "aanzienlijk hoger dan de op één na best gedocumenteerde prestatie van [chatbot]", zegt David Rein, die deel uitmaakte van het team dat de GPQA ontwikkelde. Rein werkt momenteel bij de non-profit Model Evaluation and Threat Research in Berkeley, Californië, die de risico's van AI beoordeelt. “Het lijkt mij aannemelijk dat dit een significante en fundamentele verbetering betekent in de kernmogelijkheden van het model”, voegt hij eraan toe.

OpenAI testte ook o1 tijdens een kwalificerend examen voor de Internationale Wiskundeolympiade. Het vorige beste model, GPT-4o, loste slechts 13% van de taken correct op, terwijl o1 83% scoorde.

Denken in processen

OpenAI o1 werkt met een reeks denkstappen: het praat zichzelf door een reeks overwegingen terwijl het een probleem probeert op te lossen, terwijl het zichzelf corrigeert.

OpenAI heeft ervoor gekozen om de details van een bepaalde gedachtestapketen geheim te houden – deels omdat de keten fouten of sociaal onaanvaardbare ‘gedachten’ kan bevatten, en deels om bedrijfsgeheimen over de werking van het model te beschermen. In plaats daarvan biedt o1 een gereconstrueerde samenvatting van de logica voor de gebruiker, samen met de antwoorden. Het is onduidelijk, zegt White, of de volledige reeks van denkstappen, indien onthuld, enige gelijkenis zou vertonen met het menselijk denken.

De nieuwe vaardigheden hebben ook hun nadelen. OpenAI meldt dat het anekdotische feedback heeft ontvangen dat o1-modellen vaker “hallucineren” – valse antwoorden bedenken – dan hun voorgangers (hoewel de interne tests van het bedrijf voor o1 iets lagere hallucinatiepercentages aantoonden).

Wetenschappers van het Red Team merkten talloze manieren op waarop o1 nuttig was bij het ontwikkelen van protocollen voor wetenschappelijke experimenten, maar OpenAI zegt dat testers ook "een gebrek aan veiligheidsinformatie over schadelijke stappen benadrukten, zoals het niet benadrukken van explosiegevaren of het suggereren van ongepaste chemische veiligheidsmethoden, wat wijst op de ontoereikendheid van het model als het gaat om veiligheidskritieke taken."

“Het is nog steeds niet perfect of betrouwbaar genoeg om geen onderzoek nodig te hebben”, zegt White. Hij voegt eraan toe dat o1 daar beter geschikt voor is Toonaangevende experts als beginners. “Het gaat hun onmiddellijke vermogen te boven voor een beginner om naar een door o1 gegenereerd logboek te kijken en te beseffen dat het ‘onzin’ is”, zegt hij.

Wetenschappelijk probleemoplosser

Krenn gelooft dat o1 de wetenschap zal versnellen door de literatuur te helpen scannen, lacunes te identificeren en interessante onderzoeksmogelijkheden voor toekomstige studies aan te dragen. Hij integreerde o1 in een tool die hij hielp ontwikkelen en die dit mogelijk maakt, genaamd SciMuse 2. “Het levert veel interessantere ideeën op dan GPT-4 of GPT-4o”, zegt hij.

Kyle Kabasares, een datawetenschapper bij het Bay Area Environmental Research Institute in Moffett Field, Californië, gebruikte o1 om enkele programmeerstappen uit te voeren uit zijn doctoraatsproject dat de massa van zwarte gaten berekende. 'Ik was gewoon weggeblazen', zegt hij, waarbij hij opmerkt dat het ongeveer een uur duurde om te bereiken wat hem vele maanden kostte.

Catherine Brownstein, geneticus bij het Boston Children's Hospital in Massachusetts, zegt dat het ziekenhuis momenteel verschillende AI-systemen test, waaronder o1-preview, voor toepassingen zoals het blootleggen van verbanden tussen patiëntkenmerken en genen voor zeldzame ziekten. Ze zegt dat o1 “nauwkeuriger is en opties biedt waarvan ik dacht dat ze niet mogelijk waren met een chatbot.”

  1. Rein, D. et al. Preprint bij arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).

  2. Gu, X. & Krenn, M. Preprint bij arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).

Referenties downloaden