A tudóst lenyűgözte a ChatGPT legújabb o1-es modellje

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

A tudósok dicsérik az OpenAI új ChatGPT o1-modelljét, amiért lenyűgöző előrelépést tett a tudományos támogatás terén.

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
A tudósok dicsérik az OpenAI új ChatGPT o1-modelljét, amiért lenyűgöző előrelépést tett a tudományos támogatás terén.

A tudóst lenyűgözte a ChatGPT legújabb o1-es modellje

A kutatók, akik segítettek tesztelni az OpenAI új nagy nyelvi modelljét, az OpenAI o1-et, azt mondják, hogy ez nagy előrelépés a A chatbotok hasznossága a tudomány számára képviseli.

„Az én kvantumfizika területén lényegesen részletesebb és koherensebb válaszok vannak”, mint az előző modellnél, a GPT-4o-nál – mondja Mario Krenn, a németországi erlangeni Max Planck Fényfizikai Intézet Mesterséges Tudós Laboratóriumának vezetője. Krenn a „Vörös csapat” tudóscsoportjának tagja volt, akik tesztelték az o1 kiadás előtti verzióját az OpenAI-hoz, a kaliforniai San Francisco-i technológiai vállalathoz.

Mivel a ChatGPT nyilvános bevezetése 2022-ben Átlagosan az ilyen chatbotokat működtető nagy nyelvi modellek nagyobbak és jobbak lettek, több paraméterrel, nagyobb képzési adatkészlettel és erősebb készségek a különféle szabványosított teszteken.

Az OpenAI elmagyarázza, hogy a o1 sorozat alapvető változást jelent a vállalat szemléletében. Megfigyelők arról számoltak be, hogy ez az AI-modell azért emelkedik ki, mert több időt töltött bizonyos tanulási fázisokban, és hosszabb ideig „gondolkodik” a válaszain, így lassabb, de hatékonyabb – különösen azokon a területeken, ahol a helyes és rossz válaszok egyértelműen meghatározottak. A vállalat hozzáteszi, hogy az o1 „bonyolult feladatokon keresztül tud gondolkodni, és nehezebb problémákat old meg, mint a tudomány, a programozás és a matematika korábbi modelljei”. Jelenleg az o1-preview és az o1-mini – egy kisebb, költséghatékonyabb, programozásra alkalmas változat – tesztelhető fizető ügyfelek és bizonyos fejlesztők számára. A cég semmilyen információt nem közölt az o1 modellek paramétereiről vagy számítási teljesítményéről.

Túlteljesítő végzős hallgatók

Andrew White, a vegyész a FutureHouse, egy San Francisco-i nonprofit szervezet, amely arra összpontosított, hogy a mesterséges intelligencia hogyan alkalmazható a molekuláris biológiában, azt mondja, hogy az elmúlt másfél évben a megfigyelők a GPT-4 nyilvános megjelenése óta, meglepett és csalódott volt a chatbotok tudományos feladatok támogatásának általános hiánya miatt. Az o1 sorozat, úgy véli, ezen változtatott.

Figyelemre méltó, hogy az o1 az első olyan nyelvi modell, amely a Graduate-Level Google-Proof Q&A Benchmark (GPQA) nevű tesztben legyőzte a végzős hallgatókat a legnehezebb kérdésben – a „Gyémánt” készletben. 1. Az OpenAI szerint kutatói a GPQA Diamondban valamivel kevesebb mint 70%-ot értek el, míg az o1 összességében 78%-ot ért el, és különösen magas, 93%-os a fizikában (lásd „Következő szint”). Ez „jelentősen magasabb, mint a következő legjobban dokumentált [chatbot] teljesítménye” – mondja David Rein, aki a GPQA-t kidolgozó csapat tagja volt. Rein jelenleg a kaliforniai Berkeleyben található nonprofit Model Evaluation and Threat Research szervezetnél dolgozik, amely az AI kockázatait méri fel. „Számomra hihetőnek tűnik, hogy ez jelentős és alapvető javulást jelent a modell alapvető képességeiben” – teszi hozzá.

Az OpenAI a Nemzetközi Matematikai Olimpia minősítő vizsgáján is tesztelte az o1-et. A korábbi legjobb modell, a GPT-4o a feladatoknak csak 13%-át oldotta meg helyesen, míg az o1 83%-ot ért el.

A folyamatokban való gondolkodás

Az OpenAI o1 gondolkodási lépések láncolatával működik: egy sor megfontoláson keresztül beszéli meg magát, miközben megpróbálja megoldani a problémát, és közben korrigálja magát.

Az OpenAI úgy döntött, hogy egy adott gondolati lépéslánc részleteit titokban tartja – részben azért, mert a lánc hibákat vagy társadalmilag elfogadhatatlan „gondolatokat” tartalmazhat, részben pedig azért, hogy megvédje a modell működésével kapcsolatos vállalati titkokat. Ehelyett az o1 a logikájának rekonstruált összefoglalását kínálja a felhasználó számára a válaszokkal együtt. White szerint nem világos, hogy a gondolatlépések teljes sorozata, ha feltárulna, hasonlóságot mutatna-e az emberi gondolkodással.

Az új képességeknek megvannak a maga árnyoldalai is. Az OpenAI jelentése szerint anekdotikus visszajelzéseket kapott, miszerint az o1-modellek gyakrabban „hallucinálnak” – találnak ki hamis válaszokat –, mint elődeik (bár a vállalat o1-re vonatkozó belső tesztelése valamivel alacsonyabb hallucinációs rátát mutatott).

A Red Team tudósai számos olyan módszert jegyeztek fel, amelyekben az o1 hasznos volt a tudományos kísérletek protokolljainak kidolgozásában, de az OpenAI szerint a tesztelők „rávilágítottak a biztonsági információk hiányára a káros lépésekkel kapcsolatban, például nem emelték ki a robbanásveszélyt vagy nem javasoltak nem megfelelő vegyi biztonsági módszereket, jelezve a modell elégtelenségét a biztonság szempontjából kritikus feladatok tekintetében”.

„Még mindig nem elég tökéletes vagy megbízható ahhoz, hogy ne kelljen átvizsgálni” – mondja White. Hozzáteszi, hogy az o1 alkalmasabb erre Vezető szakértők kezdőként. „Egy kezdő számára meghaladja az azonnali képességeiket, hogy ránézzenek az o1 által generált naplóra, és rájöjjenek, hogy ez „nemtelenség”” – mondja.

Tudományos problémamegoldó

Krenn úgy véli, hogy az o1 felgyorsítja a tudományt azáltal, hogy segít átvizsgálni a szakirodalmat, azonosítani a hiányosságokat, és érdekes kutatási utakat javasol a jövőbeni tanulmányokhoz. Az o1-et egy olyan eszközbe integrálta, amelynek fejlesztésében segített, és amely ezt lehetővé teszi, a SciMuse néven 2. „Sokkal érdekesebb ötleteket generál, mint a GPT-4 vagy a GPT-4o” – mondja.

Kyle Kabasares, a kaliforniai Moffett Field-i Bay Area Environmental Research Institute adattudósa, az o1-et használta néhány programozási lépés végrehajtásához a fekete lyukak tömegét kiszámító doktori projektjéből. „Egyszerűen el voltam ragadtatva” – mondja, és megjegyzi, hogy körülbelül egy órába telt, mire sikerült elérnie azt, ami sok hónapig tartott.

Catherine Brownstein, a massachusettsi Bostoni Gyermekkórház genetikusa szerint a kórház jelenleg számos mesterséges intelligencia-rendszert tesztel, köztük az o1-preview-t olyan alkalmazásokhoz, mint például a betegek jellemzői és a ritka betegségek génjei közötti kapcsolatok feltárása. Azt mondja, hogy az o1 „pontosabb, és olyan lehetőségeket kínál, amelyekről azt hittem, hogy chatbottal nem lehetségesek”.

  1. Rein, D. et al. Előnyomtatás az arXiv webhelyen https://doi.org/10.48550/arXiv.2311.12022 (2023).

  2. Gu, X. & Krenn, M. Preprint at arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).

Referenciák letöltése