Учен, впечатлен от последния модел ChatGPT o1
Учените хвалят новия ChatGPT модел o1 на OpenAI за неговия впечатляващ напредък в научната подкрепа.

Учен, впечатлен от последния модел ChatGPT o1
Изследователи, които помогнаха да се тества новият голям езиков модел на OpenAI, OpenAI o1, казват, че това е голяма крачка напред по отношение на Полезността на чатботовете за науката представлява.
„В моята област на квантовата физика има значително по-подробни и последователни отговори“ в сравнение с предишния модел, GPT-4o, казва Марио Крен, ръководител на лабораторията за изкуствени учени в Института Макс Планк за физика на светлината в Ерланген, Германия. Крен беше част от група учени от „Червения екип“, които тестваха предварителната версия на o1 за OpenAI, технологична компания със седалище в Сан Франциско, Калифорния, подлагайки бота на крачки и проверявайки за проблеми със сигурността.
Тъй като публичното стартиране на ChatGPT през 2022 г Средно големите езикови модели, които захранват такива чатботове, са станали по-големи и по-добри, с повече параметри, по-големи набори от данни за обучение и по-добри умения за различни стандартизирани тестове.
OpenAI обяснява, че серия o1 представлява фундаментална промяна в подхода на компанията. Наблюдателите съобщават, че този AI модел се откроява, защото е прекарал повече време в определени фази на обучение и „мисли“ по-дълго за отговорите си, което го прави по-бавен, но по-способен – особено в области, където правилните и грешните отговори са ясно дефинирани. Компанията добавя, че o1 може да „обмисля сложни задачи и да решава по-трудни проблеми от предишните модели в науката, програмирането и математиката“. Понастоящем o1-preview и o1-mini — по-малка, по-рентабилна версия, подходяща за програмиране — са достъпни за тестване за плащащи клиенти и определени разработчици. Компанията не е публикувала никаква информация за параметрите или изчислителната мощност на моделите o1.
Превъзходни студенти
Андрю Уайт, а химик във FutureHouse, организация с нестопанска цел в Сан Франциско, фокусирана върху това как AI може да се приложи в молекулярната биология, казва, че през последната година и половина наблюдателите след публичното пускане на GPT-4, бяха изненадани и разочаровани от общата липса на подобрение в начина, по който чатботовете поддържат научни задачи. Серията o1, според него, е променила това.
Забележително е, че o1 е първият основен езиков модел, който победи студенти по най-трудния въпрос – наборът „Диамант“ – в тест, наречен Graduate-Level Google-Proof Q&A Benchmark (GPQA). 1. OpenAI казва, че неговите изследователи са постигнали малко под 70% в GPQA Diamond, докато o1 е отбелязал 78% като цяло, с особено висок резултат от 93% по физика (вижте „Следващо ниво“). Това е „значително по-високо от следващото най-добре документирано [чатбот] представяне“, казва Дейвид Рейн, който беше част от екипа, разработил GPQA. Рейн в момента работи в организацията с нестопанска цел Model Evaluation and Threat Research в Бъркли, Калифорния, която оценява рисковете от ИИ. „Изглежда ми правдоподобно, че това представлява значително и фундаментално подобрение в основните възможности на модела“, добавя той.
OpenAI също тества o1 на квалификационен изпит за Международната олимпиада по математика. Предишният най-добър модел, GPT-4o, реши правилно само 13% от задачите, докато o1 отбеляза 83%.
Мислене в процеси
OpenAI o1 работи с верига от стъпки на мислене: той говори сам чрез поредица от съображения, докато се опитва да разреши проблем, като се коригира, докато върви.
OpenAI е избрал да запази в тайна подробностите за дадена верига от мисловни стъпки - отчасти защото веригата може да съдържа грешки или социално неприемливи „мисли“ и отчасти за да защити корпоративните тайни за това как работи моделът. Вместо това, o1 предлага реконструирано резюме на своята логика за потребителя, заедно със своите отговори. Не е ясно, казва Уайт, дали пълната последователност от мисловни стъпки, ако бъде разкрита, ще има някакви прилики с човешката мисъл.
Новите способности имат и своите недостатъци. OpenAI съобщава, че е получил анекдотична обратна връзка, че моделите o1 „халюцинират“ – измислят фалшиви отговори – по-често от своите предшественици (въпреки че вътрешните тестове на компанията за o1 показват малко по-ниски нива на халюцинации).
Учените от Червения екип отбелязаха множество начини, по които o1 е бил полезен при разработването на протоколи за научни експерименти, но OpenAI казва, че тестерите също „подчертават липсата на информация за безопасност относно вредни стъпки, като например не подчертаване на опасностите от експлозия или предлагане на неподходящи методи за химическа безопасност, което показва неадекватността на модела, когато става въпрос за критични за безопасността задачи.“
„Все още не е перфектно или достатъчно надеждно, за да не се нуждае от проверка“, казва Уайт. Той добавя, че o1 е по-подходящ за Водещи експерти като начинаещи. „Отвъд непосредствената им способност е начинаещ да погледне дневник, генериран от o1, и да разбере, че това е „глупост“, казва той.
Решаване на научни проблеми
Крен вярва, че o1 ще ускори науката, като помогне за сканиране на литературата, идентифициране на пропуски и предлага интересни изследователски пътища за бъдещи изследвания. Той интегрира o1 в инструмент, който помогна да се разработи и който прави това възможно, наречен SciMuse 2. „Той генерира много по-интересни идеи от GPT-4 или GPT-4o“, казва той.
Кайл Кабасарес, учен по данни в Института за изследване на околната среда в Bay Area в Мофет Фийлд, Калифорния, използва o1 за извършване на някои програмни стъпки от неговия докторски проект, който изчислява масата на черните дупки. „Бях просто поразен“, казва той, като отбелязва, че му е отнел около час, за да постигне това, което му е отнело много месеци.
Катрин Браунщайн, генетик в Бостънската детска болница в Масачузетс, казва, че в момента болницата тества няколко AI системи, включително o1-preview, за приложения като разкриване на връзки между характеристиките на пациентите и гените за редки заболявания. Тя казва, че o1 „е по-точен и предлага опции, които не смятах, че са възможни от чатбот.“
-
Rein, D. et al. Предпечат в arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).
-
Gu, X. & Krenn, M. Preprint at arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).