A tudósok lenyűgözték a legújabb O1 chatgpt modellt

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
A tudósok dicsérik az Openai új Chatgpt -modelljét az Openai -ból a tudományos támogatás lenyűgöző fejlődéséért. (Symbolbild/natur.wiki)

A tudósok lenyűgözték a legújabb O1 chatgpt modellt

A kutatók, akik segítették az Openai, Openai O1 új nagy nyelvi modelljének tesztelését, azt mondják, hogy ez egy nagy lépés a Chatbotok használata a tudományhoz .

"A kvantumfizika területén sokkal részletesebb és koherensebb válaszok találhatók", mint az előző modellben, a GPT-4O-ban, mondja Mario Kren, a Max Planck Intézet mesterséges tudós laboratóriumának vezetője, a németországi Erlangenben a Fény Fizikájáért. Kren a „Vörös csapat” tudósok csoportjához tartozott, aki az O1 -től az Openai -tól az Openai -tól, a kaliforniai San Francisco -ban székhellyel rendelkező Openai -tól tesztelte, kipróbálta a botot, és ellenőrizte őket a biztonsági aggályokról.

Mivel A chatgpt-of chatgpt. large language models that drive such chatbots, on average greater and better, with more parameters, larger training data sets and Készségek számos szabványosított tesztben .

Openaai elmagyarázza, hogy a o1 sorozat o1 sorozat o1 Series "> o1 Series"> o1 Series "> o1 Series"> o1 Series "> o1 Series". A vállalat megközelítésének alapvető változása. A megfigyelők szerint ezt az AI-modellt az a tény jellemzi, hogy több időt töltött bizonyos tanulási szakaszokban, és "gondolkodik" a válaszok hosszabb ideig, ami lassabbá teszi, de képes-különösen olyan területeken, ahol a helyes és a rossz válaszok egyértelműen meghatározzák. A vállalat hozzáteszi, hogy az O1 "összetett feladatokon keresztül gondolkodhat és nehezebb problémákat tud megoldani, mint a korábbi tudomány, a programozás és a matematika modelljei". Jelenleg az O1-Preview és az O1-Mini-A kisebb, költséghatékonyabb verzió, amely alkalmas a programozásra, akkor elérhető az ügyfelek és egyes fejlesztők számára a teszttelepítés során. A társaság nem tett közzé információt az O1 modellek paramétereiről vagy számítási erejéről.

meghaladja a doktori hallgatókat

Andrew White, A cemist A GPT-4 nyilvános kiadványa, és csalódott, hogy a CHPT-4-es sorozat általános javulásai hiányoznak.

Figyelemre méltó az O1 az első fő nyelvi modell, amely a doktori hallgatók a legnehezebb kérdésben-a „Diamond” -ban beállított diplomás szintű google-pot-pot-pot-potor-benchmark (GPQA) veri 1 . Az Openai kijelenti, hogy kutatói csaknem 70 % -ot értek el a GPQA gyémántban, míg az O1 összesen 78 % -ot ért el, különösen a fizika 93 % -át tett ki (lásd a "Következő szint"). Ez "lényegesen magasabb, mint a következő legjobban dokumentált előadás" - mondja David Rein, aki a GPQA -t fejlesztő csapat tagja volt. Jelenleg a non -profit szervezeti modell értékelése és fenyegetéskutatása működik a kaliforniai Berkeley -ben, amely az AI kockázatainak értékelésével foglalkozik. "Számomra hihetőnek tűnik, hogy ez jelentős és alapvető javulást jelent a modell alapvető képességeiben" - tette hozzá.

A

OpenAAI az O1 -et is tesztelte a Nemzetközi Math olimpia képesítési tesztje során. Az előző legjobb modell, a GPT-4O, csak a feladatok 13 % -át oldotta meg helyesen, míg az O1 83 % -ot ért el.

Gondolj a folyamatokban

Openai O1 az emlékmű lépéseivel működik: Számos megfontoláson keresztül beszél, miközben megpróbálja megoldani egy problémát és kijavítja magát.

A

OpenAai úgy döntött, hogy megőrzi egy adott gondolati lánc részleteit - részben azért, mert a lánc hibákat vagy társadalmilag nem elfogadható „gondolatokat” tartalmazhat, részben a vállalati titkok védelme érdekében a modell működéséről. Ehelyett az O1 rekonstruált összefoglalót kínál a felhasználó logikájáról, a válaszaival együtt. White szerint nem világos, hogy a teljes elme teljes lánca, ha kiderülne, hasonlóságú lenne -e az emberi gondolkodással.

Az új készségeknek is vannak sötét oldaluk. Az Openai jelentése szerint anekdotikus visszajelzéseket kapott, hogy az O1 modellek "hallucinálnak" gyakrabban a hamis válaszokat-mint elődeiket (bár az O1 belső tesztjei kissé alacsonyabb hallucinációs arányt mutatnak).

A vörös csapat tudósai számos lehetőséget találtak arra, hogy az O1 hogyan hasznos volt a tudományos kísérletek protokolljainak kidolgozásában, de az Openaai szerint a tesztelők azt is mutatták, hogy „a káros lépésekről szóló biztonsági információk hiánya, például a robbanás-kritikus tasks-e, amikor a modellek nem valósítását nem tartalmazzák.

"Még mindig nem tökéletes vagy elég megbízható ahhoz, hogy nem kell pontosan ellenőrizni" - mondja White. Hozzáteszi, hogy az O1 jobban alkalmas . "Egy kezdő számára túlmutat a közvetlen képességén, hogy megnézze az O1 által generált protokollt, és felismerje, hogy ez" ostobaság "" - mondja.

A tudomány problémamegoldója

A

Kren úgy véli, hogy az O1 felgyorsítja a tudományt azáltal, hogy segíti az irodalom beolvasását, felismerve a hiányosságokat és érdekes kutatási megközelítéseket javasol a jövőbeli tanulmányokhoz. Integrálta az O1-et egy olyan eszközbe, amelyet kifejlesztett, és ez lehetővé teszi ezt a Scimuse 2 . "Sokkal érdekesebb ötleteket generál, mint a GPT-4 vagy a GPT-4O"-mondja.

Kyle Kabasares, a Bay Area Környezetvédelmi Kutatóintézetének adattudója, Moffett Field, Kalifornia, Az O1 segítségével megismételje néhány programozási lépést a doktori projektjéből, amely kiszámította a fekete lyukak tömegét. "Csak elárasztottam" - mondja, és észrevette, hogy az O1 -nek kb. Egy órára van szüksége ahhoz, hogy elérje azt, ami sok hónapig fizet.

Catherine Brownstein, a Massachusetts -i Bostoni Gyermekkórház genetikusja szerint a kórház jelenleg számos AI rendszert, köztük az O1 előnézetet is tesztel, olyan alkalmazások céljából, mint például a betegek jellemzői és a ritka betegségek génjei közötti kapcsolatok felfedezése. Azt mondja, hogy az O1 "pontosabb, és olyan lehetőségeket kínál, amelyekre nem gondoltam, hogy lehetnek egy csevegőbotból".

  1. Rein, D. et al. Prepress ARXIV https://doi.org/10.48550/arxiv.2311.12022 (2023).

  2. gu, X. & Krenna, M. Preprint az arxiv https://doi.org/10.48550/arxiv.2405.17044 (2024).

  3. Referenciák letöltése