Uusin ChatGPT-malli o1 vaikuttui tutkijaan

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Tutkijat ylistävät OpenAI:n uutta ChatGPT-mallia o1 sen vaikuttavasta edistyksestä tieteen tukemisessa.

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Tutkijat ylistävät OpenAI:n uutta ChatGPT-mallia o1 sen vaikuttavasta edistyksestä tieteen tukemisessa.

Uusin ChatGPT-malli o1 vaikuttui tutkijaan

Tutkijat, jotka auttoivat testaamaan OpenAI:n uutta suurta kielimallia, OpenAI o1:tä, sanovat, että se on iso askel eteenpäin. Chatbottien hyödyllisyys tieteelle edustaa.

"Kvanttifysiikan alallani on huomattavasti yksityiskohtaisempia ja johdonmukaisempia vastauksia" kuin edellisessä mallissa, GPT-4o, sanoo Mario Krenn, Keinotekoisen tiedelaboratorion johtaja Max Planck Institute for the Physics of Lightissa Erlangenissa, Saksassa. Krenn oli osa "Punaisen tiimin" tutkijaryhmää, joka testasi o1:n julkaisua edeltävää versiota OpenAI:lle, San Franciscossa, Kaliforniassa sijaitsevalle teknologiayritykselle, testaamalla botin vauhtia ja tarkistamalla turvallisuushuolia.

Koska ChatGPT:n julkinen julkaisu vuonna 2022 Keskimäärin tällaisia ​​chatbotteja käyttävistä suurista kielimalleista on tullut suurempia ja parempia, ja niissä on enemmän parametreja, suurempia harjoitustietojoukkoja ja vahvemmat taidot erilaisissa standardoiduissa testeissä.

OpenAI selittää, että o1 sarja edustaa perustavanlaatuista muutosta yhtiön toimintatavassa. Tarkkailijat raportoivat, että tämä tekoälymalli erottuu joukosta, koska se on viettänyt enemmän aikaa tietyissä oppimisvaiheissa ja "ajattelee" vastauksiaan pidempään, mikä tekee siitä hitaamman mutta kykenevämmän - erityisesti alueilla, joilla oikeat ja väärät vastaukset on määritelty selvästi. Yhtiö lisää, että o1 voi "ajatella monimutkaisia ​​tehtäviä ja ratkaista vaikeampia ongelmia kuin aiemmat tieteen, ohjelmoinnin ja matematiikan mallit". Tällä hetkellä o1-preview ja o1-mini – pienempi, kustannustehokkaampi ohjelmointiin sopiva versio – ovat testattavissa maksaville asiakkaille ja tietyille kehittäjille. Yhtiö ei ole julkaissut tietoja o1-mallien parametreista tai laskentatehosta.

Parempia jatko-opiskelijoita

Andrew White, a kemisti San Franciscon voittoa tavoittelematon FutureHouse, joka keskittyi tekoälyn soveltamiseen molekyylibiologiaan, sanoo, että viimeisen puolentoista vuoden aikana GPT-4:n julkistamisesta lähtien, olivat yllättyneitä ja pettyneitä siitä, että chatbotit tukevat tieteellisiä tehtäviä yleisesti ottaen parantumattomina. Hän uskoo, että o1-sarja on muuttanut tämän.

On huomattava, että o1 on ensimmäinen suuri kielimalli, joka päihitti jatko-opiskelijat vaikeimmassa kysymyksessä - "Timanttisarjassa" - testissä, jota kutsutaan Graduate-Level Google-Proof Q&A Benchmark (GPQA) -testissä. 1. OpenAI sanoo, että sen tutkijat saivat hieman alle 70 prosenttia GPQA Diamondissa, kun taas o1 sai 78 prosenttia kokonaispisteistä ja erityisen korkea 93 prosenttia fysiikasta (katso "Seuraava taso"). Se on "merkittävästi korkeampi kuin toiseksi paras dokumentoitu [chatbotin] suorituskyky", sanoo David Rein, joka oli osa GPQA:ta kehittävää tiimiä. Rein työskentelee tällä hetkellä voittoa tavoittelemattomassa Model Evaluation and Threat Research -järjestössä Berkeleyssä, Kaliforniassa, joka arvioi tekoälyn riskejä. "Minusta vaikuttaa uskottavalta, että tämä edustaa merkittävää ja perustavaa laatua olevaa parannusta mallin ydinominaisuuksiin", hän lisää.

OpenAI testasi myös o1:tä kansainvälisen matematiikan olympialaisen karsintakokeessa. Edellinen paras malli GPT-4o ratkaisi tehtävistä oikein vain 13 %, kun taas o1 sai 83 %.

Prosesseissa ajattelu

OpenAI o1 toimii ajatteluvaiheiden ketjulla: se keskustelee itsensä läpi useita pohdintoja yrittäessään ratkaista ongelman ja korjaa itseään sen edetessä.

OpenAI on päättänyt pitää tietyn ajatusvaiheketjun yksityiskohdat salassa – osittain siksi, että ketju saattaa sisältää virheitä tai sosiaalisesti hyväksymättömiä "ajatuksia", ja osittain suojatakseen yrityksen salaisuuksia mallin toiminnasta. Sen sijaan o1 tarjoaa käyttäjälle rekonstruoidun yhteenvedon logiikastaan ​​sekä vastauksensa. On epäselvää, White sanoo, olisiko koko ajatusvaiheiden sarja, jos se paljastetaan, yhtäläisyyksiä ihmisen ajatteluun.

Uusilla kyvyillä on myös huonot puolensa. OpenAI raportoi, että se on saanut anekdoottista palautetta siitä, että o1-mallit "hallusinoivat" - keksivät vääriä vastauksia - useammin kuin edeltäjänsä (vaikka yrityksen sisäinen o1-testaus osoitti hieman alhaisempia hallusinaatioita).

Red Teamin tutkijat panivat merkille lukuisia tapoja, joilla o1:stä oli apua tieteellisten kokeiden protokollien kehittämisessä, mutta OpenAI:n mukaan testaajat myös "korostivat turvallisuustietojen puutetta haitallisista vaiheista, kuten räjähdysvaaroista puuttuminen tai sopimattomien kemikaaliturvallisuusmenetelmien ehdottaminen, mikä osoittaa mallin riittämättömyyden turvallisuuden kannalta kriittisten tehtävien suhteen."

"Se ei ole vieläkään tarpeeksi täydellinen tai luotettava, jotta se ei tarvitse tarkastelua", White sanoo. Hän lisää, että o1 sopii paremmin Johtavat asiantuntijat aloittelijoina. Aloittelija ei pysty katsomaan o1:n luomaa lokia ja ymmärtämään, että se on "hölynpölyä", hän sanoo.

Tieteellinen ongelmanratkaisija

Krenn uskoo, että o1 nopeuttaa tiedettä auttamalla tutkimaan kirjallisuutta, tunnistamaan aukkoja ja ehdottamaan mielenkiintoisia tutkimusreittejä tulevia tutkimuksia varten. Hän integroi o1:n työkaluun, jonka hän auttoi kehittämään ja joka tekee tämän mahdolliseksi, nimeltä SciMuse 2. "Se tuottaa paljon mielenkiintoisempia ideoita kuin GPT-4 tai GPT-4o", hän sanoo.

Kyle Kabasares, datatieteilijä Bay Area Environmental Research Institutesta Moffett Fieldissä, Kaliforniassa, käytti o1:tä joidenkin ohjelmointivaiheiden tekemiseen hänen väitöskirjaprojektistaan, jossa laskettiin mustien aukkojen massa. "Olin aivan ihastunut", hän sanoo ja huomauttaa, että kesti noin tunnin saada aikaan se, mikä vei häneltä monta kuukautta.

Massachusettsin Bostonin lastensairaalan geneetikko Catherine Brownstein sanoo, että sairaala testaa parhaillaan useita tekoälyjärjestelmiä, mukaan lukien o1-esikatselua, sovelluksiin, kuten potilaan ominaisuuksien ja harvinaisten sairauksien geenien välisten yhteyksien paljastamiseen. Hän sanoo, että o1 "on tarkempi ja tarjoaa vaihtoehtoja, joita en uskonut olevan mahdollista chatbotilla."

  1. Rein, D. et ai. Preprint osoitteessa arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).

  2. Gu, X. & Krenn, M. Preprint at arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).

Lataa viitteitä