Wetenschappers onder de indruk van het nieuwste chatgpt -model O1

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Wetenschappers prijzen het nieuwe chatgpt -model O1 van Openai voor zijn indrukwekkende vooruitgang in wetenschapsondersteuning. (Symbolbild/natur.wiki)

Wetenschappers onder de indruk van het nieuwste chatgpt -model O1

researchers who helped to test the new large language model from Openai, Openai O1, say that it is a big step in terms of Gebruik van chatbots voor wetenschap vertegenwoordigt.

"In mijn gebied van kwantumfysica zijn er veel meer gedetailleerde en meer coherente antwoorden" dan in het vorige model, GPT-4O, zegt Mario Krenn, hoofd van het kunstmatige Scientist Lab aan het Max Planck Institute for the Physics of Light in Erlangen, Duitsland. Krenn behoorde tot een groep wetenschappers in het 'Red Team', die de pre -dating van O1 testte voor Openai, een technologiebedrijf gevestigd in San Francisco, Californië, door de bot uit te proberen en te controleren op beveiligingsproblemen.

Sinds vaardigheden in een groot aantal gestandaardiseerde tests .

OpenAai legt uit dat de O1 reeks" Body-TEXT "> O1 SEEKSE AS A A SEXTE TEXTE" O1 SEEXTE "O1-serie Fundamentele verandering in de aanpak van het bedrijf. Waarnemers melden dat dit AI-model wordt gekenmerkt door het feit dat het meer tijd heeft doorgebracht in bepaalde leerfasen en "denkt" over de antwoorden langer, waardoor het langzamer maar capabeler wordt-vooral in gebieden waar correcte en verkeerde antwoorden duidelijk zijn gedefinieerd. Het bedrijf voegt eraan toe dat O1 "complexe taken kan nadenken en moeilijkere problemen kan oplossen dan eerdere modellen in wetenschap, programmeren en wiskunde". Momenteel zijn O1-Preview en O1-Mini-A kleinere, meer kosteneffectieve versie die geschikt is voor programmeren beschikbaar voor betalende klanten en bepaalde ontwikkelaars in testbewerking. Het bedrijf heeft geen informatie gepubliceerd over de parameters of de rekenkracht van de O1 -modellen.

overtreffen de doctoraatsstudenten

Andrew White, a Chemist Openbare publicatie van GPT-4 , waren verrast en teleurgesteld door een algemeen gebrek aan verbeteringen in de ondersteuning van wetenschappelijke taken door chatbots.

Opmerkelijk is O1 Het eerste grote taalmodel dat promotiestudenten in de moeilijkste vraag de ‘Diamond’ Google-proof Q&A Benchmark (GPQA) beats 1 .. Openai stelt dat zijn onderzoekers bijna 70 % hebben bereikt in de GPQA -diamant, terwijl O1 in totaal 78 % bereikte, met een bijzonder hoog resultaat van 93 % in de natuurkunde (zie "Next Level"). Dit is "aanzienlijk hoger dan de volgende beste gedocumenteerde prestaties", zegt David Rein, die deel uitmaakte van het team dat de GPQA ontwikkelde. Momenteel werkt het niet -profitorganisatiemodelevaluatie en dreigingsonderzoek in Berkeley, Californië, dat zich bezighoudt met de evaluatie van de risico's van AI. "Het lijkt mij aannemelijk dat dit een belangrijke en fundamentele verbetering van de kernvaardigheden van het model betekent," voegt hij eraan toe.

OpenAai testte ook O1 tijdens een kwalificatietest voor de internationale wiskunde Olympiade. Het vorige beste model, GPT-4O, heeft slechts 13 % van de taken correct opgelost, terwijl O1 83 % bereikte.

Denk in processen

Openai O1 werkt met een keten van herdenkingsstappen: het spreekt door een aantal overwegingen terwijl het probeert een probleem op te lossen en corrigeert zichzelf.

OpenAai heeft besloten om de details van een bepaalde gedachte te bewaren - deels omdat de keten fouten of sociaal niet -acceptabele "gedachten" kan bevatten, en deels om bedrijfsgeheimen te beschermen over hoe het model werkt. In plaats daarvan biedt O1 een gereconstrueerde samenvatting van zijn logica voor de gebruiker samen met zijn antwoorden. Volgens White is het onduidelijk, of de volledige keten van geesten, als het werd onthuld, overeenkomsten zou hebben met het menselijk denken.

De nieuwe vaardigheden hebben ook hun donkere kanten. OpenAI meldt dat het anekdotische feedback heeft ontvangen dat O1 modellen "hallucineren" vaker valse antwoorden-als hun voorgangers (hoewel interne tests voor O1 iets lagere hallucinatiepercentages vertonen).

De wetenschappers van het Rode Team hebben talloze opties gevonden voor hoe O1 nuttig was bij het ontwikkelen van protocollen voor wetenschappelijke experimenten, maar OpenAai zegt dat de testers ook hebben aangetoond "gebrek aan veiligheidsinformatie over schadelijke stappen, zoals de niet-verwijdering van explosie-gevaren of de suggesties in-aadevequate chemische veiligheidsmethoden, die de inadaquacy van het model van het model aanwijst wanneer het komt, gaat het om de veiligheid van de explosie".

"Het is nog steeds niet perfect of betrouwbaar genoeg om niet precies te hoeven worden gecontroleerd", zegt White. Hij voegt eraan toe dat O1 meer geschikt is voor Begin met beginers AS AS Begin. . "Voor een beginner is het buiten haar onmiddellijke vermogen om te kijken naar een protocol dat wordt gegenereerd door O1 en om te herkennen dat het" onzin "is," zegt hij.

Probleemoplosser van de wetenschap

Krenn gelooft dat O1 de wetenschap zal versnellen door te helpen de literatuur te scannen, hiaten te herkennen en interessante onderzoeksbenaderingen voor toekomstige studies voor te stellen. Hij integreerde O1 in een tool die hij heeft ontwikkeld en die dit mogelijk maakt om Scimuse 2 . "Het genereert veel interessantere ideeën dan GPT-4 of GPT-4O", zegt hij.

Kyle Kabasares, een datawetenschapper bij het Bay Area Environmental Research Institute in Moffett Field, Californië, Gebruik O1 om enkele programmeerstappen te repliceren van zijn doctoraatsproject, dat de massa zwarte gaten berekende. "Ik was net overweldigd", zegt hij, en merkte op dat O1 ongeveer een uur nodig had om te bereiken wat hem vele maanden kostte.

Catherine Brownstein, een geneticus in het Boston Children's Hospital in Massachusetts, zegt dat het ziekenhuis momenteel verschillende AI -systemen test, waaronder O1 -preview, op toepassingen zoals het blootleggen van relaties tussen patiëntkenmerken en genen voor zeldzame ziekten. Ze zegt dat O1 "preciezer is en opties biedt waarvan ik niet dacht dat ze mogelijk waren uit een chatbot".

    >
  1. Rein, D. et al. Preprint op arxiv https://doi.org/10.48550/arxiv.2311.12022 (2023).

  2. gu, X. & Krenn, M. Preprint at arxiv https://doi.org/10.48550/arxiv.2405.17044 (2024).

  3. Download referenties