Vědci zapůsobili nejnovějším modelem Chatgpt O1

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Vědci chválí nový model Chatgpt O1 od OpenAI pro svůj působivý pokrok ve vědě. (Symbolbild/natur.wiki)

Vědci zapůsobili nejnovějším modelem Chatgpt O1

Vědci, kteří pomohli otestovat nový model velkého jazyka z OpenAI, OpenAI O1, říkají, že je to velký krok, pokud jde o Použití chatbotů pro vědu představuje.

"V mé oblasti kvantové fyziky je mnohem podrobnější a soudržnější odpovědi" než v předchozím modelu, GPT-4o, říká Mario Krenn, vedoucí umělé vědecké laboratoře v Max Planck Institute pro fyziku světla v německém Erlangenu. Krenn patřil ke skupině vědců v „červeném týmu“, který testoval pre -dýchání z O1 pro technologickou společnost OpenAi se sídlem v San Franciscu v Kalifornii, vyzkoušením bota a jejich kontrolou v bezpečnostních obavách.

Od dovednosti ve velkém počtu standardizovaných testů

OpenAAI vysvětluje, že

Překročit doktorské studenty

Andrew White, a Veřejná publikace GPT-4 , byla překvapena sérií O1

Pozoruhodný je O1 První hlavní jazykový model, který doktorští studenti v nejobtížnější otázce-„Diamond“-set-set-úrovně na úrovni Google-Refall Q&A Benchmark (GPQA) Beats "referenční"> "referenční"> "reference"> "referenční"> "referenční" 1 <" OpenAI uvádí, že jeho vědci dosáhli téměř 70 % v diamantu GPQA, zatímco O1 dosáhl celkem 78 %, s obzvláště vysokým výsledkem 93 % fyziky (viz „Další úroveň“). To je „výrazně vyšší než další nejlepší zdokumentovaný výkon“, říká David Rein, který byl součástí týmu, který vyvinul GPQA. V současné době pracuje nezisková organizační hodnocení a výzkum hrozeb v Berkeley v Kalifornii, která se zabývá hodnocením rizik AI. „Zdá se mi věrohodné, že to představuje významné a zásadní zlepšení základních dovedností modelu,“ dodává.

OpenAAI také testoval O1 během kvalifikačního testu pro mezinárodní matematickou olympiádu. Předchozí nejlepší model, GPT-4o, vyřešil pouze 13 % úkolů správně, zatímco O1 dosáhl 83 %.

Think in procesy

OpenAI O1 pracuje s řetězcem pamětních kroků: hovoří s řadou úvah a přitom se snaží vyřešit problém a opraví se.

OpenAAI se rozhodl uchovávat podrobnosti o daném řetězci myšlení - částečně proto, že řetěz by mohl obsahovat chyby nebo společensky nepřijatelné „myšlenky“ a částečně chránit firemní tajemství o tom, jak model funguje. Místo toho O1 nabízí rekonstruované shrnutí své logiky pro uživatele spolu s jeho odpověďmi. Podle White není jasné, zda by úplný řetězec mysli, pokud by byl odhalen, měl podobnosti s lidským myšlením.

Nové dovednosti mají také své temné strany. OpenAI uvádí, že obdržel neoficiální zpětnou vazbu, že O1 modeluje „halucinace“, častěji vynalézají falešné odpovědi-jako jejich předchůdci (ačkoli interní testy na O1 vykazují mírně nižší míru halucinace).

Vědci červeného týmu našli četné možnosti, jak O1 pomohl při vývoji protokolů pro vědecké experimenty, ale Openaai říká, že testeři také ukázali „nedostatek bezpečnostních informací o škodlivých krocích, jako je nevyjádření rizik exploze nebo návrhy, které nedosahují metod chemické bezpečnosti, což znamená, že to dochází k bezpečnostním faktorům“.

"Stále to není dostatečně dokonalé ani spolehlivé, aby se nemuselo přesně zkontrolovat," říká White. Dodává, že O1 je vhodnější pro 2 . „Vytváří to mnohem zajímavější myšlenky než GPT-4 nebo GPT-4o,“ říká.

Kyle Kabasares, vědec v oblasti výzkumného ústavu pro životní prostředí v oblasti Bay Area v Moffett Field v Kalifornii, Pomocí O1 replikujte některé programovací kroky z jeho doktorátního projektu, který vypočítal hmotnost černých děr. „Byl jsem jen ohromen,“ říká a všiml si, že O1 potřebuje asi hodinu, aby dosáhl toho, co ho po mnoho měsíců stálo.

Catherine Brownstein, genetikka v Bostonské dětské nemocnici v Massachusetts, říká, že nemocnice v současné době testuje několik systémů AI, včetně náhledu O1, pro aplikace, jako je odhalení vztahů mezi charakteristikami pacienta a geny pro vzácná onemocnění. Říká, že O1 „je přesnější a nabízí možnosti, o kterých jsem si nemyslel, že jsou možné od chatového bota“.

  1. rein, D. et al. Preprint na arxiv https://doi.org/10.48550/arxiv.2311.12022 (2023).

  2. gu, X. & Krenn, M. Preprint na arxiv https://doi.org/10.48550/arxiv.2405.17044 (2024).

  3. Reference ke stažení