Gli scienziati colpiti dall'ultimo modello di chatgpt O1

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Gli scienziati lodano il nuovo modello di chatgpt O1 di Openai per i suoi impressionanti progressi nel supporto scientifico. (Symbolbild/natur.wiki)

Gli scienziati colpiti dall'ultimo modello di chatgpt O1

I ricercatori che hanno contribuito a testare il nuovo modello di linguaggio di grandi dimensioni da Openai, Openi O1, affermano che è un grande passo in termini di Uso di chatbot per la scienza Rappresenta.

"Nella mia area di fisica quantistica ci sono risposte molto più dettagliate e più coerenti" rispetto al modello precedente, GPT-4o, afferma Mario Krenn, capo del laboratorio di scienziati artificiali presso il Max Planck Institute for the Physics of Light a Erlangen, Germania. Krenn apparteneva a un gruppo di scienziati nel "team rosso", che ha testato la pre -datazione da O1 per Openi, una società tecnologica con sede a San Francisco, in California, provando il bot e controllandoli sui problemi di sicurezza.

Da In un gran numero di test standardizzati

OpenAai spiega che

Supera gli studenti di dottorato

Andrew White, a Pubblicazione pubblica di GPT-4 sono stati sorpresi e delusi da una generale mancanza di miglioramenti nel sostegno di compiti scientifici da parte di Chatbots

notevole è il primo modello di linguaggio importante che gli studenti di dottorato nella domanda più difficile-il livello "Diamond" a livello di laurea a livello di laurea Google-a prova di benchmark (GPQA) batta 1 . Openi afferma che i suoi ricercatori hanno raggiunto quasi il 70 % nel diamante GPQA, mentre O1 ha raggiunto un totale del 78 %, con un risultato particolarmente elevato del 93 % in fisica (vedi "livello successivo"). Questo è "significativamente più alto delle prossime prestazioni più documentate", afferma David Rein, che faceva parte del team che ha sviluppato il GPQA. Attualmente, la valutazione del modello dell'organizzazione non profit e la ricerca sulle minacce stanno lavorando a Berkeley, in California, che si occupa della valutazione dei rischi dell'IA. "Mi sembra plausibile che ciò rappresenti un miglioramento significativo e fondamentale nelle abilità fondamentali del modello", aggiunge.

OpenAai ha anche testato O1 durante un test di qualificazione per le Olimpiadi di matematica internazionale. Il miglior modello migliore, GPT-4O, ha risolto correttamente solo il 13 % delle attività, mentre O1 ha raggiunto l'83 %.

Pensa nei processi

Openai O1 funziona con una catena di passaggi commemorativi: parla attraverso una serie di considerazioni mentre cerca di risolvere un problema e si corregge.

OpenAai ha deciso di mantenere i dettagli di una determinata catena di pensiero - in parte perché la catena potrebbe contenere errori o "pensieri" socialmente non accettabili e in parte per proteggere i segreti aziendali su come funziona il modello. Invece, O1 offre un riepilogo ricostruito della sua logica per l'utente insieme alle sue risposte. Non è chiaro, secondo White, se la catena completa di menti, se fosse stata rivelata, avrebbe somiglianze con il pensiero umano.

Le nuove abilità hanno anche i loro lati oscuri. Openai riferisce di aver ricevuto un feedback aneddotico che i modelli O1 "allucinano" più spesso invengono le risposte false, come i loro predecessori (sebbene i test interni per O1 mostrino tassi di allucinazione leggermente più bassi).

Gli scienziati del team rosso hanno trovato numerose opzioni su come O1 sia stato utile nello sviluppo di protocolli per esperimenti scientifici, ma OpenAai afferma che i tester hanno anche mostrato "mancanza di informazioni sulla sicurezza su passi dannosi, come la non rimozione dei pericoli di esplosione o i suggerimenti inadeguati metodi di sicurezza chimica, che indicano i metodi di sicurezza chimica inadeguati, che indicano il modello inadeguato del modello quando si verifica ai tasi criminali.

"Non è ancora abbastanza perfetto o abbastanza affidabile da non dover essere controllato esattamente", afferma White. Aggiunge che O1 è più adatto per

Problem Solver of Science

Krenn crede che O1 accelererà la scienza aiutando a scansionare la letteratura, riconoscendo le lacune e proponendo interessanti approcci di ricerca per studi futuri. Ha integrato O1 in uno strumento che ha sviluppato e che consente questo chiamato scimuse 2 . "Genera idee molto più interessanti di GPT-4 o GPT-4O", afferma.

Kyle Kabasares, uno scienziato dei dati presso il Bay Area Environmental Research Institute a Moffett Field, California, Usa O1 per replicare alcuni passaggi di programmazione dal suo progetto di dottorato, che ha calcolato la massa di buchi neri. "Ero solo sopraffatto", dice, notando che O1 aveva bisogno di circa un'ora per raggiungere ciò che gli è costato per molti mesi.

Catherine Brownstein, genetista presso l'ospedale pediatrico di Boston nel Massachusetts, afferma che l'ospedale sta attualmente testando diversi sistemi di intelligenza artificiale, tra cui l'anteprima di O1, per applicazioni come scoprire le relazioni tra caratteristiche del paziente e geni per le malattie rare. Dice O1 "è più preciso e offre opzioni che non pensavo fossero possibili da un bot di chat".

    >
  1. Rein, D. et al. Preprint at arxiv https://doi.org/10.48550/arxiv.2311.12022 (2023).

  2. >>>>>>>>>>>>>>>>>>>>>

    Gu, X. & Krenn, M. preprint at arxiv https://doi.org/10.48550/arxiv.2405.17044 (2024).

  3. Scarica riferimenti