A tudósok lenyűgözték a legújabb O1 chatgpt modellt

A tudósok lenyűgözték a legújabb O1 chatgpt modellt
A kutatók, akik segítették az Openai, Openai O1 új nagy nyelvi modelljének tesztelését, azt mondják, hogy ez egy nagy lépés a Chatbotok használata a tudományhoz .
"A kvantumfizika területén sokkal részletesebb és koherensebb válaszok találhatók", mint az előző modellben, a GPT-4O-ban, mondja Mario Kren, a Max Planck Intézet mesterséges tudós laboratóriumának vezetője, a németországi Erlangenben a Fény Fizikájáért. Kren a „Vörös csapat” tudósok csoportjához tartozott, aki az O1 -től az Openai -tól az Openai -tól, a kaliforniai San Francisco -ban székhellyel rendelkező Openai -tól tesztelte, kipróbálta a botot, és ellenőrizte őket a biztonsági aggályokról.
Mivel A chatgpt-of chatgpt. large language models that drive such chatbots, on average greater and better, with more parameters, larger training data sets and Készségek számos szabványosított tesztben .
Openaai elmagyarázza, hogy a o1 sorozat
meghaladja a doktori hallgatókat
Andrew White, A cemist A GPT-4 nyilvános kiadványa, és csalódott, hogy a CHPT-4-es sorozat általános javulásai hiányoznak.
Figyelemre méltó az O1 az első fő nyelvi modell, amely a doktori hallgatók a legnehezebb kérdésben-a „Diamond” -ban beállított diplomás szintű google-pot-pot-pot-potor-benchmark (GPQA) veri 1 . Az Openai kijelenti, hogy kutatói csaknem 70 % -ot értek el a GPQA gyémántban, míg az O1 összesen 78 % -ot ért el, különösen a fizika 93 % -át tett ki (lásd a "Következő szint"). Ez "lényegesen magasabb, mint a következő legjobban dokumentált előadás" - mondja David Rein, aki a GPQA -t fejlesztő csapat tagja volt. Jelenleg a non -profit szervezeti modell értékelése és fenyegetéskutatása működik a kaliforniai Berkeley -ben, amely az AI kockázatainak értékelésével foglalkozik. "Számomra hihetőnek tűnik, hogy ez jelentős és alapvető javulást jelent a modell alapvető képességeiben" - tette hozzá. OpenAAI az O1 -et is tesztelte a Nemzetközi Math olimpia képesítési tesztje során. Az előző legjobb modell, a GPT-4O, csak a feladatok 13 % -át oldotta meg helyesen, míg az O1 83 % -ot ért el. Gondolj a folyamatokban Openai O1 az emlékmű lépéseivel működik: Számos megfontoláson keresztül beszél, miközben megpróbálja megoldani egy problémát és kijavítja magát. OpenAai úgy döntött, hogy megőrzi egy adott gondolati lánc részleteit - részben azért, mert a lánc hibákat vagy társadalmilag nem elfogadható „gondolatokat” tartalmazhat, részben a vállalati titkok védelme érdekében a modell működéséről. Ehelyett az O1 rekonstruált összefoglalót kínál a felhasználó logikájáról, a válaszaival együtt. White szerint nem világos, hogy a teljes elme teljes lánca, ha kiderülne, hasonlóságú lenne -e az emberi gondolkodással. Az új készségeknek is vannak sötét oldaluk. Az Openai jelentése szerint anekdotikus visszajelzéseket kapott, hogy az O1 modellek "hallucinálnak" gyakrabban a hamis válaszokat-mint elődeiket (bár az O1 belső tesztjei kissé alacsonyabb hallucinációs arányt mutatnak). A vörös csapat tudósai számos lehetőséget találtak arra, hogy az O1 hogyan hasznos volt a tudományos kísérletek protokolljainak kidolgozásában, de az Openaai szerint a tesztelők azt is mutatták, hogy „a káros lépésekről szóló biztonsági információk hiánya, például a robbanás-kritikus tasks-e, amikor a modellek nem valósítását nem tartalmazzák. "Még mindig nem tökéletes vagy elég megbízható ahhoz, hogy nem kell pontosan ellenőrizni" - mondja White. Hozzáteszi, hogy az O1 jobban alkalmas . "Egy kezdő számára túlmutat a közvetlen képességén, hogy megnézze az O1 által generált protokollt, és felismerje, hogy ez" ostobaság "" - mondja. A tudomány problémamegoldója Kren úgy véli, hogy az O1 felgyorsítja a tudományt azáltal, hogy segíti az irodalom beolvasását, felismerve a hiányosságokat és érdekes kutatási megközelítéseket javasol a jövőbeli tanulmányokhoz. Integrálta az O1-et egy olyan eszközbe, amelyet kifejlesztett, és ez lehetővé teszi ezt a Scimuse 2 . "Sokkal érdekesebb ötleteket generál, mint a GPT-4 vagy a GPT-4O"-mondja. Kyle Kabasares, a Bay Area Környezetvédelmi Kutatóintézetének adattudója, Moffett Field, Kalifornia, Az O1 segítségével megismételje néhány programozási lépést a doktori projektjéből, amely kiszámította a fekete lyukak tömegét. "Csak elárasztottam" - mondja, és észrevette, hogy az O1 -nek kb. Egy órára van szüksége ahhoz, hogy elérje azt, ami sok hónapig fizet. Catherine Brownstein, a Massachusetts -i Bostoni Gyermekkórház genetikusja szerint a kórház jelenleg számos AI rendszert, köztük az O1 előnézetet is tesztel, olyan alkalmazások céljából, mint például a betegek jellemzői és a ritka betegségek génjei közötti kapcsolatok felfedezése. Azt mondja, hogy az O1 "pontosabb, és olyan lehetőségeket kínál, amelyekre nem gondoltam, hogy lehetnek egy csevegőbotból". Rein, D. et al. Prepress ARXIV https://doi.org/10.48550/arxiv.2311.12022 (2023). gu, X. & Krenna, M. Preprint az arxiv https://doi.org/10.48550/arxiv.2405.17044 (2024).