A tudóst lenyűgözte a ChatGPT legújabb o1-es modellje
A tudósok dicsérik az OpenAI új ChatGPT o1-modelljét, amiért lenyűgöző előrelépést tett a tudományos támogatás terén.

A tudóst lenyűgözte a ChatGPT legújabb o1-es modellje
A kutatók, akik segítettek tesztelni az OpenAI új nagy nyelvi modelljét, az OpenAI o1-et, azt mondják, hogy ez nagy előrelépés a A chatbotok hasznossága a tudomány számára képviseli.
„Az én kvantumfizika területén lényegesen részletesebb és koherensebb válaszok vannak”, mint az előző modellnél, a GPT-4o-nál – mondja Mario Krenn, a németországi erlangeni Max Planck Fényfizikai Intézet Mesterséges Tudós Laboratóriumának vezetője. Krenn a „Vörös csapat” tudóscsoportjának tagja volt, akik tesztelték az o1 kiadás előtti verzióját az OpenAI-hoz, a kaliforniai San Francisco-i technológiai vállalathoz.
Mivel a ChatGPT nyilvános bevezetése 2022-ben Átlagosan az ilyen chatbotokat működtető nagy nyelvi modellek nagyobbak és jobbak lettek, több paraméterrel, nagyobb képzési adatkészlettel és erősebb készségek a különféle szabványosított teszteken.
Az OpenAI elmagyarázza, hogy a o1 sorozat alapvető változást jelent a vállalat szemléletében. Megfigyelők arról számoltak be, hogy ez az AI-modell azért emelkedik ki, mert több időt töltött bizonyos tanulási fázisokban, és hosszabb ideig „gondolkodik” a válaszain, így lassabb, de hatékonyabb – különösen azokon a területeken, ahol a helyes és rossz válaszok egyértelműen meghatározottak. A vállalat hozzáteszi, hogy az o1 „bonyolult feladatokon keresztül tud gondolkodni, és nehezebb problémákat old meg, mint a tudomány, a programozás és a matematika korábbi modelljei”. Jelenleg az o1-preview és az o1-mini – egy kisebb, költséghatékonyabb, programozásra alkalmas változat – tesztelhető fizető ügyfelek és bizonyos fejlesztők számára. A cég semmilyen információt nem közölt az o1 modellek paramétereiről vagy számítási teljesítményéről.
Túlteljesítő végzős hallgatók
Andrew White, a vegyész a FutureHouse, egy San Francisco-i nonprofit szervezet, amely arra összpontosított, hogy a mesterséges intelligencia hogyan alkalmazható a molekuláris biológiában, azt mondja, hogy az elmúlt másfél évben a megfigyelők a GPT-4 nyilvános megjelenése óta, meglepett és csalódott volt a chatbotok tudományos feladatok támogatásának általános hiánya miatt. Az o1 sorozat, úgy véli, ezen változtatott.
Figyelemre méltó, hogy az o1 az első olyan nyelvi modell, amely a Graduate-Level Google-Proof Q&A Benchmark (GPQA) nevű tesztben legyőzte a végzős hallgatókat a legnehezebb kérdésben – a „Gyémánt” készletben. 1. Az OpenAI szerint kutatói a GPQA Diamondban valamivel kevesebb mint 70%-ot értek el, míg az o1 összességében 78%-ot ért el, és különösen magas, 93%-os a fizikában (lásd „Következő szint”). Ez „jelentősen magasabb, mint a következő legjobban dokumentált [chatbot] teljesítménye” – mondja David Rein, aki a GPQA-t kidolgozó csapat tagja volt. Rein jelenleg a kaliforniai Berkeleyben található nonprofit Model Evaluation and Threat Research szervezetnél dolgozik, amely az AI kockázatait méri fel. „Számomra hihetőnek tűnik, hogy ez jelentős és alapvető javulást jelent a modell alapvető képességeiben” – teszi hozzá.
Az OpenAI a Nemzetközi Matematikai Olimpia minősítő vizsgáján is tesztelte az o1-et. A korábbi legjobb modell, a GPT-4o a feladatoknak csak 13%-át oldotta meg helyesen, míg az o1 83%-ot ért el.
A folyamatokban való gondolkodás
Az OpenAI o1 gondolkodási lépések láncolatával működik: egy sor megfontoláson keresztül beszéli meg magát, miközben megpróbálja megoldani a problémát, és közben korrigálja magát.
Az OpenAI úgy döntött, hogy egy adott gondolati lépéslánc részleteit titokban tartja – részben azért, mert a lánc hibákat vagy társadalmilag elfogadhatatlan „gondolatokat” tartalmazhat, részben pedig azért, hogy megvédje a modell működésével kapcsolatos vállalati titkokat. Ehelyett az o1 a logikájának rekonstruált összefoglalását kínálja a felhasználó számára a válaszokkal együtt. White szerint nem világos, hogy a gondolatlépések teljes sorozata, ha feltárulna, hasonlóságot mutatna-e az emberi gondolkodással.
Az új képességeknek megvannak a maga árnyoldalai is. Az OpenAI jelentése szerint anekdotikus visszajelzéseket kapott, miszerint az o1-modellek gyakrabban „hallucinálnak” – találnak ki hamis válaszokat –, mint elődeik (bár a vállalat o1-re vonatkozó belső tesztelése valamivel alacsonyabb hallucinációs rátát mutatott).
A Red Team tudósai számos olyan módszert jegyeztek fel, amelyekben az o1 hasznos volt a tudományos kísérletek protokolljainak kidolgozásában, de az OpenAI szerint a tesztelők „rávilágítottak a biztonsági információk hiányára a káros lépésekkel kapcsolatban, például nem emelték ki a robbanásveszélyt vagy nem javasoltak nem megfelelő vegyi biztonsági módszereket, jelezve a modell elégtelenségét a biztonság szempontjából kritikus feladatok tekintetében”.
„Még mindig nem elég tökéletes vagy megbízható ahhoz, hogy ne kelljen átvizsgálni” – mondja White. Hozzáteszi, hogy az o1 alkalmasabb erre Vezető szakértők kezdőként. „Egy kezdő számára meghaladja az azonnali képességeiket, hogy ránézzenek az o1 által generált naplóra, és rájöjjenek, hogy ez „nemtelenség”” – mondja.
Tudományos problémamegoldó
Krenn úgy véli, hogy az o1 felgyorsítja a tudományt azáltal, hogy segít átvizsgálni a szakirodalmat, azonosítani a hiányosságokat, és érdekes kutatási utakat javasol a jövőbeni tanulmányokhoz. Az o1-et egy olyan eszközbe integrálta, amelynek fejlesztésében segített, és amely ezt lehetővé teszi, a SciMuse néven 2. „Sokkal érdekesebb ötleteket generál, mint a GPT-4 vagy a GPT-4o” – mondja.
Kyle Kabasares, a kaliforniai Moffett Field-i Bay Area Environmental Research Institute adattudósa, az o1-et használta néhány programozási lépés végrehajtásához a fekete lyukak tömegét kiszámító doktori projektjéből. „Egyszerűen el voltam ragadtatva” – mondja, és megjegyzi, hogy körülbelül egy órába telt, mire sikerült elérnie azt, ami sok hónapig tartott.
Catherine Brownstein, a massachusettsi Bostoni Gyermekkórház genetikusa szerint a kórház jelenleg számos mesterséges intelligencia-rendszert tesztel, köztük az o1-preview-t olyan alkalmazásokhoz, mint például a betegek jellemzői és a ritka betegségek génjei közötti kapcsolatok feltárása. Azt mondja, hogy az o1 „pontosabb, és olyan lehetőségeket kínál, amelyekről azt hittem, hogy chatbottal nem lehetségesek”.
-
Rein, D. et al. Előnyomtatás az arXiv webhelyen https://doi.org/10.48550/arXiv.2311.12022 (2023).
-
Gu, X. & Krenn, M. Preprint at arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).