Znanstvenici impresionirani najnovijim modelom chatgpt o1

Znanstvenici impresionirani najnovijim modelom chatgpt o1
Istraživači koji su pomogli testirati novi model velikog jezika iz OpenAi-a, OpenAi O1, kažu da je to veliki korak u smislu Upotreba chatbota za znanost predstavlja.
"U mom području kvantne fizike postoje mnogo detaljnije i koherentnije odgovore" nego u prethodnom modelu, GPT-4O, kaže Mario Krenn, voditelj laboratorija za umjetne znanstvene znanstvenike u Institutu Max Planck za fiziku svjetla u Erlangenu, Njemačka. Krenn je pripadao grupi znanstvenika iz 'Crvenog tima', koji je testirao prethodno uređenje iz O1 za OpenAi, tehnološku tvrtku sa sjedištem u San Franciscu u Kaliforniji, isprobavajući robota i provjeravajući ih o sigurnosnim problemima.
Budući da su veliki jezični modeli koji voze takve chatbotove, u prosjeku veće i bolje, s više parametara, većim skupovima podataka o treningu i Vještine u velikom broju standardiziranih testova .
OpenAai objašnjava da je
premašiti doktorske studente Andrew White, a Chemist at Futurehouse, a Neprofitna organizacija u San Franciscu, koja se usredotočuje na to kako se AI može koristiti u molekularnoj biologiji, kaže da promatrač u posljednjih godinu i pol href = "https://www.nature.com/articles/d41586-023-00816-5" Data-Ttrack = "klika "https://www.nature.com/articles/d41586-00816-5" Data-Track-Category = "Tekst tijela"> Javno objavljivanje GPT-4
izvanredan je O1 prvi glavni jezični model koji doktorski studenti u najtežim pitanjem-"Dijamantni" diplomirani na nivou Google-a Q&A referentna oznaka (GPQA) pobjeđuje "Refals". OpenAi kaže da su njegovi istraživači postigli gotovo 70 % u GPQA dijamantu, dok je O1 dosegao ukupno 78 %, s posebno visokim rezultatom od 93 % u fizici (vidi "sljedeća razina"). To je "znatno veće od sljedeće najbolje dokumentirane performanse", kaže David Rein, koji je bio dio tima koji je razvio GPQA. Trenutno, ne -profit organizacijske evaluacije i istraživanja prijetnji radi u Berkeleyu u Kaliforniji, što se bavi procjenom rizika od AI. "Čini mi se vjerojatnim da to predstavlja značajno i temeljno poboljšanje u osnovnim vještinama modela", dodaje.
Openaai je također testirao O1 tijekom kvalifikacijskog testa za međunarodnu matematičku olimpijadu. Prethodni najbolji model, GPT-4O, ispravno je riješio 13 % zadataka, dok je O1 postigao 83 %.
Razmislite u procesima
OpenAi O1 radi s lancem memorijalnih koraka: govori kroz brojna razmatranja dok pokušava riješiti problem i ispraviti se.
Openaai je odlučio zadržati detalje određenog lanca misli - dijelom i zato što lanac može sadržavati pogreške ili društveno ne -prihvatljive "misli", a dijelom radi zaštite korporativnih tajni o načinu na koji model funkcionira. Umjesto toga, O1 nudi rekonstruirani sažetak njegove logike za korisnika zajedno sa svojim odgovorima. Prema Whiteu, nejasno je da li bi kompletan lanac uma, ako je otkriveno, imao sličnosti s ljudskim razmišljanjem.
Nove vještine imaju i svoje tamne strane. OpenAi izvještava da je primio anegdotske povratne informacije da O1 modeli "haluciniraju" češće inventne lažne odgovore-kao njihovi prethodnici (iako unutarnji testovi za O1 pokazuju nešto niže stope halucinacije).
Znanstvenici Crvenog tima otkrili su brojne mogućnosti kako je O1 bio koristan u razvoju protokola za znanstvene eksperimente, ali Openaai kaže da su testeri također pokazali „nedostatak sigurnosnih podataka o štetnim koracima, poput ne-uklanjanja opasnosti od eksplozije ili prijedloga koji neadekvatna kemijska sigurnost“, što se navodi u skladu s tim da se u skladu s motorom ima.
"Još uvijek nije dovoljno savršen ili pouzdan da ga ne morate točno provjeriti", kaže White. Dodaje da je O1 prikladniji za
Problem rješavanja znanosti Krenn vjeruje da će O1 ubrzati znanost pomažući skenirati literaturu, prepoznati nedostatke i predložiti zanimljive istraživačke pristupe za buduće studije. Integrirao je O1 u alat koji je razvio i koji omogućava ovo nazvano scimuse 2 . "To stvara mnogo zanimljivije ideje od GPT-4 ili GPT-4O", kaže on. Kyle Kabasares, znanstvenik podataka na Institutu za istraživanje okoliša Bay Area u Moffett Field-u u Kaliforniji, Upotrijebite O1 da biste replicirali neke programijske korake sa svog doktorata, koji je izračunao masu crnih rupa. "Bio sam samo preplavljen", kaže on, primjećujući da je O1 trebalo oko sat vremena da bi ga postigao ono što ga košta više mjeseci. Catherine Brownstein, genetičarka u Bostonskoj dječjoj bolnici u Massachusettsu, kaže da bolnica trenutno testira nekoliko AI sustava, uključujući O1 Pregled, za primjene poput otkrivanja odnosa između karakteristika pacijenata i gena za rijetke bolesti. Kaže da je O1 "precizniji i nudi opcije za koje nisam mislio da su moguće od chat bota".