Om de știință impresionat de cel mai recent model ChatGPT o1

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Oamenii de știință laudă noul model ChatGPT o1 al OpenAI pentru progresele sale impresionante în sprijinul științei.

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Oamenii de știință laudă noul model ChatGPT o1 al OpenAI pentru progresele sale impresionante în sprijinul științei.

Om de știință impresionat de cel mai recent model ChatGPT o1

Cercetătorii care au ajutat la testarea noului model de limbă mare al OpenAI, OpenAI o1, spun că este un mare pas înainte în ceea ce privește Utilitatea chatbot-urilor pentru știință reprezintă.

„În domeniul meu de fizică cuantică, există răspunsuri mult mai detaliate și mai coerente” decât în ​​cazul modelului anterior, GPT-4o, spune Mario Krenn, șeful Laboratorului Artificial Scientist de la Institutul Max Planck pentru Fizica luminii din Erlangen, Germania. Krenn a făcut parte dintr-un grup de oameni de știință din „Echipa roșie” care a testat versiunea pre-lansare a lui o1 pentru OpenAI, o companie de tehnologie cu sediul în San Francisco, California, punând bot-ul la încercare și verificând problemele de securitate.

Din moment ce lansarea publică a ChatGPT în 2022 În medie, modelele mari de limbă care alimentează astfel de chatboți au devenit mai mari și mai bune, cu mai mulți parametri, seturi de date de antrenament mai mari și abilități mai puternice la o varietate de teste standardizate.

OpenAI explică că o1 seria reprezintă o schimbare fundamentală în abordarea companiei. Observatorii raportează că acest model AI iese în evidență pentru că a petrecut mai mult timp în anumite faze de învățare și „se gândește” mai mult la răspunsurile sale, făcându-l mai lent, dar mai capabil – mai ales în zonele în care răspunsurile corecte și greșite sunt clar definite. Compania adaugă că o1 poate „să se gândească la sarcini complexe și să rezolve probleme mai dificile decât modelele anterioare din știință, programare și matematică”. În prezent, o1-preview și o1-mini — o versiune mai mică, mai rentabilă, potrivită pentru programare — sunt disponibile în testare pentru clienții plătitori și anumiți dezvoltatori. Compania nu a publicat nicio informație despre parametrii sau puterea de calcul a modelelor o1.

Depășirea studenților absolvenți

Andrew White, a chimist la FutureHouse, o organizație nonprofit din San Francisco axată pe modul în care AI poate fi aplicată la biologia moleculară, spune că în ultimul an și jumătate, observatorii de la lansarea publică a GPT-4, au fost surprinși și dezamăgiți de o lipsă generală de îmbunătățire a modului în care chatbot-urile sprijină sarcinile științifice. Seria o1, crede el, a schimbat acest lucru.

În mod remarcabil, o1 este primul model de limbă major care învinge studenții absolvenți la cea mai dificilă întrebare – setul „Diamond” – într-un test numit Graduate-Level Google-Proof Q&A Benchmark (GPQA). 1. OpenAI spune că cercetătorii săi au obținut puțin sub 70% la diamantul GPQA, în timp ce o1 a obținut un scor general de 78%, cu un scor deosebit de ridicat de 93% la fizică (vezi „Nivelul următor”). Aceasta este „semnificativ mai mare decât următoarea performanță [chatbot] cea mai bine documentată”, spune David Rein, care a făcut parte din echipa care a dezvoltat GPQA. Rein lucrează în prezent la Model Evaluation and Threat Research din Berkeley, California, care evaluează riscurile AI. „Mi se pare plauzibil că aceasta reprezintă o îmbunătățire semnificativă și fundamentală a capacităților de bază ale modelului”, adaugă el.

OpenAI a testat și o1 la un examen de calificare pentru Olimpiada Internațională de Matematică. Cel mai bun model anterior, GPT-4o, a rezolvat doar 13% dintre sarcini corect, în timp ce o1 a obținut 83%.

Gândirea în procese

OpenAI o1 funcționează cu un lanț de pași de gândire: se vorbește singur printr-o serie de considerații în timp ce încearcă să rezolve o problemă, corectându-se pe măsură ce trece.

OpenAI a ales să păstreze secrete detaliile unui anumit lanț de pasi de gândire – parțial pentru că lanțul ar putea conține erori sau „gânduri” inacceptabile din punct de vedere social și, parțial, pentru a proteja secretele corporative despre modul în care funcționează modelul. În schimb, o1 oferă utilizatorului un rezumat reconstruit al logicii sale, împreună cu răspunsurile sale. Nu este clar, spune White, dacă întreaga secvență a pașilor gândirii, dacă ar fi dezvăluită, ar avea vreo asemănare cu gândirea umană.

Noile abilități au și dezavantajele lor. OpenAI raportează că a primit feedback anecdotic conform căruia modelele o1 „halucinează” – inventează răspunsuri false – mai frecvent decât predecesorii lor (deși testele interne ale companiei pentru o1 au arătat rate de halucinații ușor mai mici).

Oamenii de știință Red Team au observat numeroase moduri în care o1 a fost util în dezvoltarea protocoalelor pentru experimentele științifice, dar OpenAI spune că testerii „au evidențiat și o lipsă de informații de siguranță despre pașii dăunători, cum ar fi neevidențierea pericolelor de explozie sau sugerarea unor metode de siguranță chimică neadecvate, indicând inadecvarea modelului atunci când vine vorba de sarcini critice pentru siguranță”.

„Încă nu este perfect sau suficient de fiabil încât să nu aibă nevoie de control”, spune White. El adaugă că o1 este mai potrivit pentru Experți de top ca începători. „Depășește capacitatea lor imediată ca un începător să se uite la un jurnal generat de o1 și să-și dea seama că este „prostii””, spune el.

Rezolvator de probleme științifice

Krenn crede că O1 va accelera știința ajutând la scanarea literaturii, la identificarea lacunelor și sugerând căi de cercetare interesante pentru studii viitoare. El a integrat o1 într-un instrument pe care l-a ajutat să dezvolte și care face acest lucru posibil, numit SciMuse 2. „Generează idei mult mai interesante decât GPT-4 sau GPT-4o”, spune el.

Kyle Kabasares, cercetător de date la Institutul de Cercetare a Mediului Bay Area din Moffett Field, California, folosit o1 pentru a face niște pași de programare din proiectul său de doctorat care a calculat masa găurilor negre. „Am fost pur și simplu uluit”, spune el, observând că a durat aproximativ o oră pentru a realiza ceea ce i-a luat multe luni.

Catherine Brownstein, genetician la Spitalul de Copii Boston din Massachusetts, spune că spitalul testează în prezent mai multe sisteme AI, inclusiv o1-preview, pentru aplicații precum descoperirea conexiunilor dintre caracteristicile pacienților și genele bolilor rare. Ea spune că o1 „este mai precis și oferă opțiuni pe care nu le credeam posibile de la un chatbot”.

  1. Rein, D. şi colab. Preprint la arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).

  2. Gu, X. & Krenn, M. Preprint at arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).

Descărcați referințe