Naukowiec pod wrażeniem najnowszego modelu ChatGPT o1

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Naukowcy chwalą nowy model ChatGPT o1 OpenAI za imponujące postępy w zakresie wsparcia nauki.

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Naukowcy chwalą nowy model ChatGPT o1 OpenAI za imponujące postępy w zakresie wsparcia nauki.

Naukowiec pod wrażeniem najnowszego modelu ChatGPT o1

Badacze, którzy pomogli przetestować nowy, duży model językowy OpenAI, OpenAI o1, twierdzą, że jest to duży krok naprzód pod względem Przydatność chatbotów dla nauki reprezentuje.

„W mojej dziedzinie fizyki kwantowej istnieją znacznie bardziej szczegółowe i spójne odpowiedzi” niż w przypadku poprzedniego modelu GPT-4o, mówi Mario Krenn, kierownik Laboratorium Sztucznych Naukowców w Instytucie Fizyki Światła Maxa Plancka w Erlangen w Niemczech. Krenn należał do grupy naukowców z „Red Team”, która testowała przedpremierową wersję o1 dla OpenAI, firmy technologicznej z siedzibą w San Francisco w Kalifornii, testując bota i sprawdzając, czy nie ma problemów z bezpieczeństwem.

Od publiczne uruchomienie ChatGPT w 2022 r Średnio duże modele językowe, na których opierają się takie chatboty, stają się większe i lepsze, mają więcej parametrów, większe zbiory danych szkoleniowych i lepsze umiejętności w różnych standardowych testach.

OpenAI wyjaśnia, że seria o1 oznacza zasadniczą zmianę w podejściu firmy. Obserwatorzy zgłaszają, że ten model sztucznej inteligencji wyróżnia się tym, że spędza więcej czasu na niektórych etapach uczenia się i „myśli” dłużej o swoich odpowiedziach, dzięki czemu jest wolniejszy, ale za to ma większe możliwości – szczególnie w obszarach, w których jasno określone są dobre i złe odpowiedzi. Firma dodaje, że o1 potrafi „przemyślać złożone zadania i rozwiązać trudniejsze problemy niż poprzednie modele w nauce, programowaniu i matematyce”. Obecnie o1-preview i o1-mini — mniejsza, bardziej opłacalna wersja odpowiednia do programowania — są dostępne w testach dla płacących klientów i niektórych programistów. Firma nie opublikowała żadnych informacji na temat parametrów ani mocy obliczeniowej modeli o1.

Wybitni absolwenci

Andrzej Biały, A chemik z FutureHouse, organizacji non-profit z San Francisco skupiającej się na zastosowaniu sztucznej inteligencji w biologii molekularnej, twierdzi, że w ciągu ostatniego półtora roku obserwatorzy od publicznego wydania GPT-4, byli zaskoczeni i rozczarowani ogólnym brakiem poprawy w zakresie sposobu, w jaki chatboty wspierają zadania naukowe. Jego zdaniem seria o1 to zmieniła.

Co ciekawe, o1 to pierwszy duży model językowy, który pokonał absolwentów w najtrudniejszym pytaniu — zestawie „diamentowym” — w teście zwanym testem porównawczym pytań i odpowiedzi Google-Proof na poziomie absolwentów (GPQA). 1. OpenAI twierdzi, że jego badacze uzyskali nieco poniżej 70% w diamencie GPQA, podczas gdy o1 uzyskało ogółem 78%, a szczególnie wysoki wynik 93% w fizyce (patrz „Następny poziom”). To „znacznie więcej niż kolejna najlepiej udokumentowana wydajność [chatbota]” – mówi David Rein, który był częścią zespołu opracowującego GPQA. Rein obecnie pracuje w organizacji non-profit Model Evaluation and Threat Research w Berkeley w Kalifornii, która ocenia ryzyko związane ze sztuczną inteligencją. „Wydaje mi się prawdopodobne, że stanowi to znaczącą i fundamentalną poprawę podstawowych możliwości modelu” – dodaje.

OpenAI przetestowało także o1 podczas egzaminu kwalifikacyjnego do Międzynarodowej Olimpiady Matematycznej. Poprzedni najlepszy model, GPT-4o, rozwiązał poprawnie tylko 13% zadań, podczas gdy o1 uzyskał 83%.

Myślenie procesowe

OpenAI o1 działa w oparciu o łańcuch etapów myślenia: omawia serię rozważań, próbując rozwiązać problem, poprawiając się w miarę upływu czasu.

OpenAI zdecydowało się zachować w tajemnicy szczegóły danego łańcucha etapów myślowych — częściowo dlatego, że łańcuch może zawierać błędy lub społecznie niedopuszczalne „myśli”, a częściowo po to, aby chronić tajemnice korporacyjne dotyczące działania modelu. Zamiast tego o1 oferuje użytkownikowi zrekonstruowane podsumowanie swojej logiki wraz z odpowiedziami. Nie jest jasne, mówi White, czy pełna sekwencja etapów myślowych, jeśli zostanie ujawniona, będzie wykazywać podobieństwo do myśli ludzkiej.

Nowe umiejętności mają też swoje wady. OpenAI informuje, że otrzymało niepotwierdzone informacje, że modele o1 „mają halucynacje” – wymyślają fałszywe odpowiedzi – częściej niż ich poprzednicy (chociaż wewnętrzne testy firmy dotyczące o1 wykazały nieco niższy współczynnik halucynacji).

Naukowcy z Red Team zauważyli, że o1 było pomocne w opracowywaniu protokołów eksperymentów naukowych, ale OpenAI twierdzi, że testerzy również „podkreślili brak informacji dotyczących bezpieczeństwa na temat szkodliwych kroków, takich jak niepokazywanie zagrożeń wybuchem lub sugerowanie niewłaściwych metod bezpieczeństwa chemicznego, co wskazuje na nieadekwatność modelu w przypadku zadań krytycznych dla bezpieczeństwa”.

„Nadal nie jest na tyle doskonały i niezawodny, aby nie wymagać analizy” – mówi White. Dodaje, że do tego lepiej pasuje o1 Czołowi eksperci jako początkujący. „Początkujący nie jest w stanie spojrzeć na dziennik wygenerowany przez o1 i zdać sobie sprawę, że jest to «bzdura»” – mówi.

Rozwiązanie problemów naukowych

Krenn wierzy, że o1 przyspieszy naukę, pomagając w skanowaniu literatury, identyfikowaniu luk i proponowaniu interesujących kierunków badawczych dla przyszłych badań. Zintegrował o1 z narzędziem, które pomógł opracować, które to umożliwiło, zwanym SciMuse 2. „Generuje znacznie ciekawsze pomysły niż GPT-4 czy GPT-4o” – mówi.

Kyle Kabasares, analityk danych w Bay Area Environmental Research Institute w Moffett Field w Kalifornii, użyłem o1 do wykonania kilku kroków programowania z jego projektu doktoranckiego, w którym obliczono masę czarnych dziur. „Byłem po prostu zachwycony” – mówi, zauważając, że osiągnięcie tego, co jemu zajęło wiele miesięcy, zajęło około godziny.

Catherine Brownstein, genetyk z Boston Children's Hospital w Massachusetts, twierdzi, że szpital testuje obecnie kilka systemów sztucznej inteligencji, w tym o1-preview, pod kątem takich zastosowań, jak odkrywanie powiązań między cechami pacjenta a genami chorób rzadkich. Mówi, że o1 „jest dokładniejsze i oferuje opcje, o których nie sądziłam, że są możliwe w przypadku chatbota”.

  1. Rein, D. i in. Przeddruk w arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).

  2. Gu, X. i Krenn, M. Przedruk w arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).

Pobierz referencje