Vedca zaujal najnovší model ChatGPT o1

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Vedci chvália nový model ChatGPT o1 od OpenAI za jeho pôsobivé pokroky v podpore vedy.

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Vedci chvália nový model ChatGPT o1 od OpenAI za jeho pôsobivé pokroky v podpore vedy.

Vedca zaujal najnovší model ChatGPT o1

Výskumníci, ktorí pomáhali testovať nový veľký jazykový model OpenAI, OpenAI o1, tvrdia, že ide o veľký krok vpred z hľadiska Užitočnosť chatbotov pre vedu predstavuje.

„V mojej oblasti kvantovej fyziky existujú podstatne podrobnejšie a koherentnejšie odpovede“ ​​než v prípade predchádzajúceho modelu GPT-4o, hovorí Mario Krenn, vedúci laboratória pre umelých vedcov v Inštitúte Maxa Plancka pre fyziku svetla v Erlangene v Nemecku. Krenn bol súčasťou skupiny vedcov z „Červeného tímu“, ktorí testovali predbežnú verziu o1 pre OpenAI, technologickú spoločnosť so sídlom v San Franciscu v Kalifornii, testovali robota a kontrolovali bezpečnostné problémy.

Od r verejné spustenie ChatGPT v roku 2022 V priemere sa veľké jazykové modely, ktoré poháňajú takéto chatboty, zväčšili a zlepšili, s viacerými parametrami, väčšími súbormi tréningových dát a silnejšie zručnosti v rôznych štandardizovaných testoch.

OpenAI vysvetľuje, že o1 séria predstavuje zásadnú zmenu v prístupe spoločnosti. Pozorovatelia uvádzajú, že tento model AI vyniká tým, že v určitých fázach učenia strávil viac času a nad odpoveďami dlhšie „premýšľa“, čím je pomalší, ale schopnejší – najmä v oblastiach, kde sú správne a nesprávne odpovede jasne definované. Spoločnosť dodáva, že o1 dokáže „premýšľať o zložitých úlohách a riešiť zložitejšie problémy ako predchádzajúce modely vo vede, programovaní a matematike“. V súčasnosti sú pre platiacich zákazníkov a niektorých vývojárov dostupné na testovanie o1-preview a o1-mini – menšia, cenovo výhodnejšia verzia vhodná na programovanie. O parametroch ani výpočtovom výkone modelov o1 spoločnosť nezverejnila žiadne informácie.

Prekonanie postgraduálnych študentov

Andrew White, a chemik z FutureHouse, nezisková organizácia zo San Francisca zameraná na to, ako možno AI aplikovať na molekulárnu biológiu, hovorí, že za posledný rok a pol pozorovatelia od zverejnenia GPT-4, boli prekvapení a sklamaní všeobecným nedostatkom zlepšenia v tom, ako chatboty podporujú vedecké úlohy. Verí, že séria o1 to zmenila.

Je pozoruhodné, že o1 je prvým veľkým jazykovým modelom, ktorý porazil postgraduálnych študentov v najťažšej otázke – diamantovej sade – v teste s názvom Graduate-Level Google-Proof Q&A Benchmark (GPQA). 1. OpenAI tvrdí, že jej výskumníci dosiahli v GPQA Diamond skóre tesne pod 70 %, zatiaľ čo o1 celkovo dosiahol 78 %, s obzvlášť vysokým skóre 93 % vo fyzike (pozri „Ďalšia úroveň“). To je „výrazne vyššie ako ďalší najlepšie zdokumentovaný výkon [chatbota],“ hovorí David Rein, ktorý bol súčasťou tímu, ktorý vyvinul GPQA. Rein v súčasnosti pracuje v neziskovej organizácii Model Evaluation and Threat Research v Berkeley v Kalifornii, ktorá hodnotí riziká AI. „Zdá sa mi pravdepodobné, že to predstavuje významné a zásadné zlepšenie základných schopností modelu,“ dodáva.

OpenAI testovala o1 aj v kvalifikačnej skúške na medzinárodnú matematickú olympiádu. Predchádzajúci najlepší model, GPT-4o, vyriešil správne len 13 % úloh, kým o1 dosiahol 83 %.

Myslenie v procesoch

OpenAI o1 pracuje s reťazcom krokov myslenia: rozpráva sám o sebe prostredníctvom série úvah, keď sa pokúša vyriešiť problém, pričom sa opravuje, ako to len ide.

OpenAI sa rozhodla zachovať podrobnosti o danom reťazci myšlienkových krokov v tajnosti – čiastočne preto, že reťazec môže obsahovať chyby alebo spoločensky neprijateľné „myšlienky“ a čiastočne preto, aby chránila firemné tajomstvá o tom, ako model funguje. Namiesto toho o1 ponúka rekonštruované zhrnutie svojej logiky pre používateľa spolu so svojimi odpoveďami. White hovorí, že nie je jasné, či by úplná postupnosť myšlienkových krokov, ak by bola odhalená, mala nejakú podobnosť s ľudským myslením.

Nové schopnosti majú aj svoje negatíva. OpenAI uvádza, že dostala neoficiálnu spätnú väzbu, že modely o1 „halucinujú“ – vymýšľajú falošné odpovede – častejšie ako ich predchodcovia (hoci interné testovanie spoločnosti na o1 ukázalo o niečo nižšiu mieru halucinácií).

Vedci z Red Teamu zaznamenali množstvo spôsobov, ktorými bol o1 nápomocný pri vývoji protokolov pre vedecké experimenty, ale OpenAI hovorí, že testeri tiež "zdôraznili nedostatok bezpečnostných informácií o škodlivých krokoch, ako napríklad nezvýrazňovanie nebezpečenstva výbuchu alebo navrhovanie nevhodných metód chemickej bezpečnosti, čo naznačuje nedostatočnosť modelu, pokiaľ ide o úlohy kritické z hľadiska bezpečnosti."

"Stále to nie je dostatočne dokonalé alebo spoľahlivé, aby nepotrebovalo kontrolu," hovorí White. Dodáva, že o1 sa viac hodí Poprední odborníci ako začiatočníci. „Pre začiatočníkov je nad ich okamžitou schopnosťou pozrieť sa na protokol vygenerovaný o1 a uvedomiť si, že je to ‚nezmysel‘,“ hovorí.

Riešiteľ vedeckých problémov

Krenn verí, že o1 urýchli vedu tým, že pomôže prehľadať literatúru, identifikovať medzery a navrhnúť zaujímavé výskumné cesty pre budúce štúdie. Integroval o1 do nástroja, ktorý pomáhal vyvinúť a ktorý to umožňuje, s názvom SciMuse 2. „Prináša oveľa zaujímavejšie nápady ako GPT-4 alebo GPT-4o,“ hovorí.

Kyle Kabasares, dátový vedec z Bay Area Environmental Research Institute v Moffett Field v Kalifornii, použil o1 na vykonanie niektorých programovacích krokov z jeho doktorandského projektu, ktorý vypočítal hmotnosť čiernych dier. "Bol som úplne ohromený," hovorí a poznamenáva, že trvalo asi hodinu, kým dosiahol to, čo mu trvalo mnoho mesiacov.

Catherine Brownstein, genetička z Bostonskej detskej nemocnice v Massachusetts, hovorí, že nemocnica v súčasnosti testuje niekoľko systémov AI, vrátane o1-preview, pre aplikácie, ako je odhaľovanie súvislostí medzi charakteristikami pacienta a génmi zriedkavých chorôb. Hovorí, že o1 „je presnejšia a ponúka možnosti, o ktorých som si nemyslela, že sú možné od chatbota.“

  1. Rein, D. a kol. Predtlač v arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).

  2. Gu, X. & Krenn, M. Preprint at arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).

Stiahnite si referencie