Oamenii de știință impresionați de cel mai recent model de chatgpt O1

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Oamenii de știință laudă noul model de chatgpt O1 de la OpenAI pentru progresul său impresionant în sprijinul științific. (Symbolbild/natur.wiki)

Oamenii de știință impresionați de cel mai recent model de chatgpt O1

Cercetătorii care au ajutat la testarea noului model de limbă mare de la OpenAI, OpenAI O1, spun că este un mare pas în ceea ce privește Utilizarea chatbots pentru știință reprezintă.

"În zona mea de fizică cuantică, există răspunsuri mult mai detaliate și mai coerente" decât în ​​modelul anterior, GPT-4O, spune Mario Krenn, șeful laboratorului de știință artificială de la Institutul Max Planck pentru fizica luminii din Erlangen, Germania. Krenn a aparținut unui grup de oameni de știință din „Echipa Roșie”, care a testat pre -întâlnirea de la O1 pentru OpenAI, o companie de tehnologie cu sediul în San Francisco, California, încercând bot -ul și verificându -i pe probleme de securitate.

De vreme ce Abilități într -un număr mare de teste standardizate

OpenAai explică faptul că

Bleiben Sie informiert: Jeden Abend senden wir Ihnen die Artikel des Tages aus der Kategorie Allgemein – übersichtlich als Liste.

Andrew White, A remarcabil este O1 Primul model de limbaj major pe care studenții doctoranzi în cea mai dificilă întrebare-„Diamond”-set-numit la nivel de absolvire Google-Proof Q&A Benchmark (GPQA) Beats 1 . Openai afirmă că cercetătorii săi au obținut aproape 70 % în diamantul GPQA, în timp ce O1 a atins un total de 78 %, cu un rezultat deosebit de mare de 93 % în fizică (vezi „Nivelul următor”). Aceasta este „semnificativ mai mare decât următoarea performanță cea mai bună documentată”, spune David Rein, care a făcut parte din echipa care a dezvoltat GPQA. În prezent, evaluarea modelului de organizație non -profit și cercetarea amenințărilor lucrează în Berkeley, California, care se ocupă de evaluarea riscurilor AI. „Mi se pare plauzibil că aceasta reprezintă o îmbunătățire semnificativă și fundamentală a abilităților de bază ale modelului”, adaugă el.

OpenAai a testat, de asemenea, O1 în timpul unui test de calificare pentru Olimpiada Internațională de Matematică. Cel mai bun model anterior, GPT-4O, a rezolvat doar 13 % din sarcini corect, în timp ce O1 a obținut 83 %.

Gândiți -vă în procese

Openai O1 funcționează cu un lanț de pași memoriali: vorbește printr -o serie de considerente în timp ce încearcă să rezolve o problemă și se corectează.

OpenAai a decis să păstreze detaliile unui lanț de gândire dat - parțial pentru că lanțul ar putea conține erori sau „gânduri” din punct de vedere social care nu pot fi acceptate social și, în parte, pentru a proteja secretele corporative cu privire la modul în care funcționează modelul. În schimb, O1 oferă un rezumat reconstruit al logicii sale pentru utilizator împreună cu răspunsurile sale. Nu este clar, potrivit lui White, dacă lanțul complet al minții, dacă ar fi dezvăluit, ar avea asemănări cu gândirea umană.

Noile abilități au și laturile lor întunecate. Openai relatează că a primit feedback anecdotic potrivit căruia O1 modelează „halucinați” mai des răspunsuri false-ca predecesorii lor (deși testele interne pentru O1 prezintă rate de halucinație ușor mai mici).

The scientists of the Red Team have found numerous options for how O1 was helpful in developing protocols for scientific experiments, but Openaai says that the testers also showed “lack of safety information on harmful steps, such as the non-removal of explosion hazards or the suggestions inadequate chemical safety methods, which indicates the inadequacy of the model when it comes to safety-critical tasks goes".

"Încă nu este suficient de perfect sau de încredere pentru a nu fi verificat exact", spune White. El adaugă că O1 este mai potrivit pentru 2 . „Generează idei mult mai interesante decât GPT-4 sau GPT-4O”, spune el.

Kyle Kabasares, un om de știință de date la Institutul de Cercetări pentru Mediu din Bay Area din Moffett Field, California, Utilizați O1 pentru a reproduce unele pași de programare din proiectul său de doctorat, care a calculat masa găurilor negre. „Am fost doar copleșit”, spune el, observând că O1 avea nevoie de aproximativ o oră pentru a obține ceea ce l -a costat timp de mai multe luni.

Catherine Brownstein, geneticistă la Spitalul de Copii din Boston din Massachusetts, spune că spitalul testează în prezent mai multe sisteme AI, inclusiv previzualizarea O1, pentru aplicații precum descoperirea relațiilor dintre caracteristicile pacientului și genele pentru boli rare. Ea spune că O1 „este mai precis și oferă opțiuni care nu credeam că sunt posibile dintr -un bot de chat”.

  1. rein, D. și colab. Preprint la arxiv >>>> https://doi.org/10.48550/arxiv.2311.12022 (2023).

  2. gu, x. & krenn, m. preprint la arxiv https://doi.org/10.48550/arxiv.2405.17044 (2024).

  3. Descărcați referințe