Scienziato impressionato dall'ultimo modello ChatGPT o1
Gli scienziati elogiano il nuovo modello ChatGPT o1 di OpenAI per i suoi impressionanti progressi nel supporto scientifico.

Scienziato impressionato dall'ultimo modello ChatGPT o1
I ricercatori che hanno contribuito a testare il nuovo modello linguistico di grandi dimensioni di OpenAI, OpenAI o1, affermano che si tratta di un grande passo avanti in termini di Utilità dei chatbot per la scienza rappresenta.
"Nel mio campo della fisica quantistica, ci sono risposte significativamente più dettagliate e coerenti" rispetto al modello precedente, GPT-4o, afferma Mario Krenn, capo dell'Artificial Scientist Lab presso l'Istituto Max Planck per la fisica della luce di Erlangen, in Germania. Krenn faceva parte di un gruppo di scienziati del "Red Team" che ha testato la versione pre-release di o1 per OpenAI, una società tecnologica con sede a San Francisco, in California, mettendo alla prova il bot e verificando eventuali problemi di sicurezza.
Da il lancio pubblico di ChatGPT nel 2022 In media, i modelli linguistici di grandi dimensioni che alimentano tali chatbot sono diventati più grandi e migliori, con più parametri, set di dati di addestramento più ampi e competenze più forti su una varietà di test standardizzati.
OpenAI spiega che il serie o1 rappresenta un cambiamento fondamentale nell'approccio dell'azienda. Gli osservatori riferiscono che questo modello di intelligenza artificiale si distingue perché dedica più tempo in determinate fasi di apprendimento e “pensa” più a lungo alle sue risposte, rendendolo più lento ma più capace, soprattutto nelle aree in cui le risposte giuste e sbagliate sono chiaramente definite. L’azienda aggiunge che o1 può “pensare attraverso compiti complessi e risolvere problemi più difficili rispetto ai modelli precedenti nel campo della scienza, della programmazione e della matematica”. Attualmente, o1-preview e o1-mini, una versione più piccola ed economica adatta alla programmazione, sono disponibili in fase di test per i clienti paganti e alcuni sviluppatori. L'azienda non ha pubblicato alcuna informazione sui parametri o sulla potenza di calcolo dei modelli o1.
Studenti laureati con risultati migliori
Andrew White, a chimico presso FutureHouse, un'organizzazione no-profit di San Francisco focalizzata su come l'intelligenza artificiale può essere applicata alla biologia molecolare, afferma che nell'ultimo anno e mezzo, gli osservatori dal rilascio pubblico di GPT-4, sono rimasti sorpresi e delusi dalla generale mancanza di miglioramenti nel modo in cui i chatbot supportano le attività scientifiche. La serie o1, secondo lui, ha cambiato tutto questo.
Sorprendentemente, o1 è il primo importante modello linguistico a battere gli studenti laureati sulla domanda più difficile – il set “Diamond” – in un test chiamato Graduate-Level Google-Proof Q&A Benchmark (GPQA). 1. OpenAI afferma che i suoi ricercatori hanno ottenuto un punteggio poco inferiore al 70% nel GPQA Diamond, mentre o1 ha ottenuto un punteggio complessivo del 78%, con un punteggio particolarmente alto del 93% in Fisica (vedi “Livello successivo”). Si tratta di un valore "significativamente superiore a quello della migliore prestazione [chatbot] documentata", afferma David Rein, che faceva parte del team che ha sviluppato il GPQA. Rein attualmente lavora presso l'organizzazione no-profit Model Evaluation and Threat Research a Berkeley, in California, che valuta i rischi dell'intelligenza artificiale. “Mi sembra plausibile che ciò rappresenti un miglioramento significativo e fondamentale nelle capacità fondamentali del modello”, aggiunge.
OpenAI ha anche testato o1 in un esame di qualificazione per le Olimpiadi internazionali della matematica. Il miglior modello precedente, GPT-4o, ha risolto correttamente solo il 13% dei compiti, mentre o1 ha ottenuto l'83%.
Pensare per processi
OpenAI o1 funziona con una catena di passaggi di pensiero: parla da solo attraverso una serie di considerazioni mentre cerca di risolvere un problema, correggendosi man mano che procede.
OpenAI ha scelto di mantenere segreti i dettagli di una determinata catena di passaggi di pensiero, in parte perché la catena potrebbe contenere errori o “pensieri” socialmente inaccettabili e in parte per proteggere i segreti aziendali su come funziona il modello. Invece, o1 offre all'utente un riassunto ricostruito della sua logica, insieme alle sue risposte. Non è chiaro, dice White, se l'intera sequenza dei passaggi del pensiero, se rivelata, presenterebbe qualche somiglianza con il pensiero umano.
Le nuove abilità hanno anche i loro svantaggi. OpenAI riferisce di aver ricevuto feedback aneddotici secondo cui i modelli o1 "allucinano" - inventano risposte false - più frequentemente rispetto ai loro predecessori (sebbene i test interni dell'azienda per o1 abbiano mostrato tassi di allucinazioni leggermente inferiori).
Gli scienziati del Red Team hanno notato numerosi modi in cui o1 è stato utile nello sviluppo di protocolli per esperimenti scientifici, ma OpenAI afferma che i tester "hanno evidenziato una mancanza di informazioni sulla sicurezza sui passaggi dannosi, come non evidenziare i rischi di esplosione o suggerire metodi di sicurezza chimica inappropriati, indicando l'inadeguatezza del modello quando si tratta di compiti critici per la sicurezza."
"Non è ancora perfetto o abbastanza affidabile da non richiedere un esame accurato", afferma White. Aggiunge che o1 è più adatto a Principali esperti come principianti. "È al di là delle sue capacità immediate per un principiante guardare un registro generato da o1 e rendersi conto che è una sciocchezza", dice.
Risolutore di problemi scientifici
Krenn ritiene che o1 accelererà la scienza aiutando a analizzare la letteratura, identificare le lacune e suggerire interessanti percorsi di ricerca per studi futuri. Ha integrato o1 in uno strumento che ha contribuito a sviluppare e che lo rende possibile, chiamato SciMuse 2. "Genera idee molto più interessanti di GPT-4 o GPT-4o", afferma.
Kyle Kabasares, scienziato dei dati presso il Bay Area Environmental Research Institute di Moffett Field, California, utilizzato o1 per eseguire alcuni passaggi di programmazione dal suo progetto di dottorato che calcolava la massa dei buchi neri. "Sono rimasto sbalordito", dice, sottolineando che ci è voluta circa un'ora per realizzare ciò che gli aveva richiesto molti mesi.
Catherine Brownstein, genetista del Boston Children's Hospital nel Massachusetts, afferma che l'ospedale sta attualmente testando diversi sistemi di intelligenza artificiale, incluso o1-preview, per applicazioni come la scoperta di connessioni tra le caratteristiche dei pazienti e i geni delle malattie rare. Dice che o1 "è più preciso e offre opzioni che non pensavo fossero possibili da un chatbot".
-
Rein, D. et al. Prestampa su arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).
-
Gu, X. & Krenn, M. Preprint su arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).