Учените, впечатлени от най -новия модел на Chatgpt O1

Учените, впечатлени от най -новия модел на Chatgpt O1
Изследователи, които помогнаха за тестване на новия голям език от Openai, Openai O1, казват, че това е голяма стъпка по отношение на Използване на чатботите за наука представлява.
"В моята област на квантовата физика има много по-подробни и по-съгласувани отговори", отколкото в предишния модел, GPT-4o, казва Марио Кренн, ръководител на лабораторията за изкуствени учени в Института Макс Планк за физиката на светлината в Ерланген, Германия. Кренн принадлежеше на група учени в „Червения екип“, който тестваше предварителното от O1 за Openai, технологична компания със седалище в Сан Франциско, Калифорния, като изпробва бота и ги проверява за опасенията за сигурността.
Тъй като Умения в голям брой стандартизирани тестове
OpenAai обяснява, че
надвишава докторантите Andrew White, A Публично публикуване на GPT-4 бяха изненадани и разочаровани от общата липса на подобрения в подкрепата на научните задачи от чатботите
Забележителен е O1 Първият основен език на езика, който докторантите в най-трудния въпрос-„Диамантено наречено завършва Google Q&A Beanch. Openai заявява, че неговите изследователи са постигнали почти 70 % в диаманта на GPQA, докато O1 достигна общо 78 %, с особено висок резултат от 93 % във физиката (виж „Следващо ниво“). Това е "значително по -високо от следващото най -добре документирано представяне", казва Дейвид Рейн, който беше част от екипа, който разработи GPQA. Понастоящем нестопанската организация за оценка на организацията и изследванията на заплахата работят в Беркли, Калифорния, която се занимава с оценката на рисковете на AI. „Струва ми се правдоподобно, че това представлява значително и основно подобрение в основните умения на модела“, добавя той. OpenAai също тества O1 по време на квалификационен тест за Международната олимпиада по математика. Предишният най-добър модел, GPT-4O, реши само 13 % от задачите правилно, докато O1 постигна 83 %. Помислете в процесите Openai O1 работи с верига от мемориални стъпки: Той говори чрез редица съображения, докато се опитва да реши проблем и се коригира. OpenAai реши да запази детайлите на дадена мисловна верига - отчасти защото веригата може да съдържа грешки или социално неприемливи „мисли“ и отчасти да защити корпоративните тайни за това как работи моделът. Вместо това O1 предлага реконструирано резюме на логиката си за потребителя заедно с отговорите му. Не е ясно, според Уайт дали пълната верига на умовете, ако бъде разкрита, би имала сходства с човешкото мислене. Новите умения също имат своите тъмни страни. Openai съобщава, че е получил анекдотични отзиви, че O1 моделира „халюцинира“ по-често обитаващи фалшиви отговори-като техните предшественици (въпреки че вътрешните тестове за O1 показват малко по-ниски степени на халюцинация). The scientists of the Red Team have found numerous options for how O1 was helpful in developing protocols for scientific experiments, but Openaai says that the testers also showed “lack of safety information on harmful steps, such as the non-removal of explosion hazards or the suggestions inadequate chemical safety methods, which indicates the inadequacy of the model when it comes to safety-critical tasks goes". "Все още не е достатъчно перфектно или надеждно, за да не се налага да се проверява точно", казва Уайт. Той добавя, че O1 е по-подходящ за . „За начинаеща е извън непосредствената й способност да разглежда протокол, генериран от O1, и да признае, че това е„ глупост “, казва той. решаване на проблеми на науката Krenn вярват, че O1 ще ускори науката, като помага за сканиране на литературата, признавайки пропуските и предлага интересни изследователски подходи за бъдещи изследвания. Той интегрира O1 в инструмент, който е разработил, и който позволява това, наречено Scimuse 2 . „Той генерира много по-интересни идеи от GPT-4 или GPT-4O“, казва той. Kyle Kabasares, учен по данни в Института за изследване на околната среда в района на Bay в Moffett Field, Калифорния, Използвайте O1, за да повторите някои стъпки за програмиране от неговия докторски проект, който изчислява масата на черните дупки. "Току -що бях затрупан", казва той, забелязвайки, че O1 се нуждае от около час, за да постигне това, което му струва много месеци. Катрин Браунщайн, генетик в детската болница в Бостън в Масачузетс, казва, че в момента болницата тества няколко AI системи, включително визуализация на O1, за приложения като разкриване на връзки между характеристиките на пациента и гените за редки заболявания. Тя казва, че O1 "е по -прецизен и предлага опции, които не мислех, че са възможни от чат бот". rein, D. et al. Предварителна част от Arxiv https://doi.org/10.48550/arxiv.2311.12022 (2023). gu, x. & krenn, M. preprint at arxiv https://doi.org/10.48550/arxiv.2405.17044 (2024).