Vedci zapôsobia na najnovší chatgpt model O1

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Vedci chvália nový model Chatgpt Model O1 z OpenAI za jeho pôsobivý pokrok vo vedeckej podpore. (Symbolbild/natur.wiki)

Vedci zapôsobia na najnovší chatgpt model O1

Vedci, ktorí pomohli otestovať nový model veľkého jazyka z OpenAI, OpenAI O1, hovoria, že je to veľký krok, pokiaľ ide o Použitie chatbotov pre vedu Predstavuje.

„V mojej oblasti kvantovej fyziky sú oveľa podrobnejšie a koherentnejšie odpovede“ ako v predchádzajúcom modeli GPT-4o, hovorí Mario Krenn, vedúci laboratória umelých vedcov v Inštitúte Max Plancka pre fyziku svetla v Erlangene v Nemecku. Krenn patrila skupine vedcov v „Červenom tíme“, ktorý testoval predbežnú hodnotu od O1 pre technologickú spoločnosť OpenAi so sídlom v San Franciscu v Kalifornii, vyskúšaním robota a kontrolou ich bezpečnostných problémov.

Od Zručnosti vo veľkom počte štandardizovaných testov .

OpenAai vysvetľuje, že

Prekračujte doktorandských študentov

Andrew White, A verejná publikácia GPT-4 , boli prekvapení a sklamaní všeobecným nedostatkom vylepšení v oblasti vedeckých úloh chatbots.

Pozoruhodné je O1 Prvým hlavným jazykovým modelom, ktorý doktorandovia v najťažšej otázke-Diamond'-set-called Graduate-Level-Lieče-PROPOROF Q & A-A-A-A-ARGE BENCHMARK (GPQA) Benchmark (GPQA) 1/A> 1/A>. OpenAI uvádza, že jeho vedci dosiahli takmer 70 % v diamante GPQA, zatiaľ čo O1 dosiahol celkom 78 %, s obzvlášť vysokým výsledkom 93 % vo fyzike (pozri „ďalšia úroveň“). Je to „výrazne vyššie ako ďalší najlepší dokumentovaný výkon“, hovorí David Rein, ktorý bol súčasťou tímu, ktorý vyvinul GPQA. V súčasnosti hodnotenie modelu organizácie neziskovej organizácie a výskum hrozieb pracuje v Berkeley v Kalifornii, ktorá sa zaoberá hodnotením rizík AI. „Zdá sa mi pravdepodobné, že to predstavuje významné a základné zlepšenie základných zručností modelu,“ dodáva.

OpenAai tiež testoval O1 počas kvalifikačného testu pre medzinárodnú matematickú olympiádu. Predchádzajúci najlepší model, GPT-4O, vyriešil iba 13 % úloh správne, zatiaľ čo O1 dosiahla 83 %.

myslite v procesoch

OpenAI O1 pracuje s reťazou pamätných krokov: Hovorí mnohými úvahami a snaží sa vyriešiť problém a napraviť sa.

OpenAai sa rozhodol uchovávať podrobnosti o danom reťazci myslenia - čiastočne preto, že reťazec by mohol obsahovať chyby alebo spoločensky nekonceptové „myšlienky“ a čiastočne chrániť podnikové tajomstvá o tom, ako model funguje. Namiesto toho O1 ponúka rekonštruované zhrnutie jeho logiky pre používateľa spolu so svojimi odpoveďami. Nie je jasné, podľa Whitea, či by úplná reťaz mysle, ak by bola odhalená, by mala podobnosť s ľudským myslením.

Nové zručnosti majú tiež svoje temné strany. OpenAI uvádza, že získala neoficiálnu spätnú väzbu, že O1 modely „halucinuje“ častejšie vyvolané falošné odpovede-ako ich predchodcovia (aj keď interné testy pre O1 ukazujú mierne nižšie miery halucinácie).

Vedci z Červeného tímu našli početné možnosti, ako bol O1 užitočný pri vývoji protokolov pre vedecké experimenty, ale OpenAAI tvrdí, že testeri tiež preukázali „nedostatok bezpečnostných informácií o škodlivých krokoch, ako je napríklad nevyhovenie nebezpečenstiev výbuchu alebo návrhy, ktoré nie sú metódami chemickej bezpečnosti, čo naznačuje neúmyselný model modelu, keď príde na bezpečnostnú TASKS-CRICICKÁ TACICKÁ TASKS“.

„Stále nie je dostatočne dokonalý alebo spoľahlivý, aby sa nemusel presne skontrolovať,“ hovorí White. Dodáva, že O1 je vhodnejší pre . „Pre začiatočníka je to nad jej okamžitá schopnosť pozerať sa na protokol generovaný O1 a uznať, že je to„ nezmysel “, hovorí.

riešiteľ problémov v oblasti vedy

Krenn verí, že O1 urýchli vedu tým, že pomôže skenovať literatúru, uznávať medzery a navrhne zaujímavé výskumné prístupy pre budúce štúdie. Integroval O1 do nástroja, ktorý vyvinul a ktorý umožňuje tento nazývaný SciMuse 2 . „Vytvára oveľa zaujímavejšie nápady ako GPT-4 alebo GPT-4O,“ hovorí.

Kyle Kabasares, vedec údajov v oblasti Environmental Research Institute v Bay Area v Moffett Field v Kalifornii, Použite O1 na replikáciu niektorých krokov programovania zo svojho doktorátu, ktorý vypočítal hmotnosť čiernych dier. „Bol som ohromený,“ hovorí a všimol si, že O1 potrebuje asi hodinu na dosiahnutie toho, čo ho stálo mnoho mesiacov.

Catherine Brownstein, genetik v detskej nemocnici v Bostone v Massachusetts, tvrdí, že nemocnica v súčasnosti testuje niekoľko systémov AI, vrátane ukážky O1, na aplikácie, ako je odhalenie vzťahov medzi charakteristikami pacienta a génmi pre zriedkavé choroby. Hovorí, že O1 „je presnejšia a ponúka možnosti, ktoré som si nemyslel, že sú možné od chatového robota“.

  1. rein, D. et al. Predtlač v Arxiv

    gu, x. & krenn, M. predtlač na arXiv https://doi.org/10.48550/arxiv.2405.17044 (2024).

  2. Stiahnite si odkazy