Na vědce udělal dojem nejnovější model ChatGPT o1
Vědci chválí nový model ChatGPT o1 od OpenAI za jeho působivé pokroky v podpoře vědy.

Na vědce udělal dojem nejnovější model ChatGPT o1
Výzkumníci, kteří pomáhali testovat nový velký jazykový model OpenAI, OpenAI o1, říkají, že jde o velký krok vpřed, pokud jde o Užitečnost chatbotů pro vědu představuje.
"V mém oboru kvantové fyziky existují podstatně podrobnější a koherentnější odpovědi" než u předchozího modelu GPT-4o, říká Mario Krenn, vedoucí laboratoře umělých vědců na Institutu Maxe Plancka pro fyziku světla v Erlangenu v Německu. Krenn byl součástí skupiny vědců z „Červeného týmu“, kteří testovali předběžnou verzi o1 pro OpenAI, technologickou společnost se sídlem v San Franciscu v Kalifornii, přičemž robota testovali a kontrolovali bezpečnostní problémy.
Od veřejné spuštění ChatGPT v roce 2022 V průměru se velké jazykové modely, které takové chatboty pohánějí, staly většími a lepšími, s více parametry, většími tréninkovými datovými sadami a silnější dovednosti v různých standardizovaných testech.
OpenAI vysvětluje, že série o1 představuje zásadní změnu v přístupu společnosti. Pozorovatelé uvádějí, že tento model umělé inteligence vyniká tím, že v určitých fázích učení strávil více času a „přemýšlí“ nad svými odpověďmi, takže je pomalejší, ale schopnější – zejména v oblastech, kde jsou jasně definovány správné a špatné odpovědi. Společnost dodává, že o1 dokáže „promýšlet složité úkoly a řešit složitější problémy než předchozí modely ve vědě, programování a matematice“. V současné době jsou pro platící zákazníky a některé vývojáře k dispozici o1-preview a o1-mini – menší, cenově výhodnější verze vhodná pro programování. O parametrech ani výpočetním výkonu modelů o1 společnost nezveřejnila žádné informace.
Překonání postgraduálních studentů
Andrew White, a chemik z FutureHouse, neziskové organizace ze San Francisca, která se zaměřuje na to, jak lze AI aplikovat na molekulární biologii, říká, že za poslední rok a půl pozorovatelé od zveřejnění GPT-4, byli překvapeni a zklamáni obecným nedostatkem zlepšení v tom, jak chatboti podporují vědecké úkoly. Série o1, věří, to změnila.
Je pozoruhodné, že o1 je prvním velkým jazykovým modelem, který porazil postgraduální studenty v nejtěžší otázce – v sadě „Diamant“ – v testu nazvaném Graduate-Level Google-Proof Q&A Benchmark (GPQA). 1. OpenAI říká, že její výzkumníci dosáhli těsně pod 70 % v GPQA Diamond, zatímco o1 dosáhl celkově 78 %, s obzvláště vysokým skóre 93 % ve fyzice (viz „Další úroveň“). To je „výrazně vyšší než další nejlépe zdokumentovaný výkon [chatbota],“ říká David Rein, který byl součástí týmu, který vyvinul GPQA. Rein v současnosti pracuje v neziskové organizaci Model Evaluation and Threat Research v Berkeley v Kalifornii, která posuzuje rizika AI. „Zdá se mi pravděpodobné, že to představuje významné a zásadní zlepšení základních schopností modelu,“ dodává.
OpenAI také testovala o1 v kvalifikační zkoušce na Mezinárodní matematickou olympiádu. Předchozí nejlepší model, GPT-4o, vyřešil správně pouze 13 % úloh, zatímco o1 dosáhl 83 %.
Myšlení v procesech
OpenAI o1 pracuje s řetězcem myšlenkových kroků: při pokusu o vyřešení problému se sám probírá řadou úvah a průběžně se opravuje.
OpenAI se rozhodlo udržet podrobnosti o daném řetězci myšlenek v tajnosti – částečně proto, že řetězec může obsahovat chyby nebo společensky nepřijatelné „myšlenky“, a částečně proto, aby chránil firemní tajemství o tom, jak model funguje. Místo toho o1 nabízí uživateli rekonstruované shrnutí své logiky spolu se svými odpověďmi. Není jasné, říká White, zda by úplný sled myšlenkových kroků, pokud by byl odhalen, měl nějakou podobnost s lidským myšlením.
Nové schopnosti mají i své stinné stránky. OpenAI uvádí, že obdržela neoficiální zpětnou vazbu, že modely o1 „halucinují“ – vymýšlejí falešné odpovědi – častěji než jejich předchůdci (ačkoli interní testování společnosti pro o1 ukázalo mírně nižší míru halucinací).
Vědci z Red Teamu zaznamenali řadu způsobů, jak o1 pomohl při vývoji protokolů pro vědecké experimenty, ale OpenAI říká, že testeři také „zdůrazňovali nedostatek bezpečnostních informací o škodlivých krocích, jako je neupozorňování na nebezpečí výbuchu nebo navrhování nevhodných metod chemické bezpečnosti, což naznačuje nedostatečnost modelu, pokud jde o úkoly kritické z hlediska bezpečnosti“.
"Stále to není dostatečně dokonalé nebo spolehlivé, aby nepotřebovalo kontrolu," říká White. Dodává, že o1 je vhodnější Přední odborníci jako začátečníci. „Je nad jejich bezprostřední schopnost, aby se začátečník podíval na protokol generovaný o1 a uvědomil si, že je to ‚nesmysl‘,“ říká.
Řešitel vědeckých problémů
Krenn věří, že o1 urychlí vědu tím, že pomůže prohledat literaturu, identifikovat mezery a navrhnout zajímavé výzkumné cesty pro budoucí studie. Integroval o1 do nástroje, který pomáhal vyvinout a který to umožňuje, s názvem SciMuse 2. „Vytváří mnohem zajímavější nápady než GPT-4 nebo GPT-4o,“ říká.
Kyle Kabasares, datový vědec z Bay Area Environmental Research Institute v Moffett Field v Kalifornii, použil o1 k provedení některých programovacích kroků z jeho doktorského projektu, který vypočítal hmotnost černých děr. „Prostě mě to uchvátilo,“ říká a poznamenává, že dosažení toho, co mu trvalo mnoho měsíců, trvalo asi hodinu.
Catherine Brownstein, genetička z Boston Children's Hospital v Massachusetts, říká, že nemocnice v současné době testuje několik systémů umělé inteligence, včetně o1-preview, pro aplikace, jako je odhalování spojení mezi charakteristikami pacientů a geny vzácných onemocnění. Říká, že o1 „je přesnější a nabízí možnosti, o kterých jsem si nemyslela, že jsou možné od chatbota.“
-
Rein, D. a kol. Předtisk na arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).
-
Gu, X. & Krenn, M. Preprint at arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).