Un scientifique impressionné par le dernier modèle ChatGPT o1

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Les scientifiques font l'éloge du nouveau modèle ChatGPT o1 d'OpenAI pour ses avancées impressionnantes en matière de support scientifique.

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Les scientifiques font l'éloge du nouveau modèle ChatGPT o1 d'OpenAI pour ses avancées impressionnantes en matière de support scientifique.

Un scientifique impressionné par le dernier modèle ChatGPT o1

Les chercheurs qui ont contribué à tester le nouveau grand modèle de langage d'OpenAI, OpenAI o1, affirment qu'il s'agit d'un grand pas en avant en termes de Utilité des chatbots pour la science représente.

"Dans mon domaine de physique quantique, il existe des réponses beaucoup plus détaillées et cohérentes" qu'avec le modèle précédent, GPT-4o, explique Mario Krenn, directeur du laboratoire de scientifiques artificiels à l'Institut Max Planck de physique de la lumière à Erlangen, en Allemagne. Krenn faisait partie d'un groupe de scientifiques de la « Red Team » qui ont testé la version préliminaire de o1 pour OpenAI, une société technologique basée à San Francisco, en Californie, mettant le robot à l'épreuve et vérifiant les problèmes de sécurité.

Depuis le lancement public de ChatGPT en 2022 En moyenne, les grands modèles de langage qui alimentent ces chatbots sont devenus plus grands et meilleurs, avec plus de paramètres, des ensembles de données de formation plus importants et des compétences plus solides sur une variété de tests standardisés.

OpenAI explique que le série o1 représente un changement fondamental dans l’approche de l’entreprise. Les observateurs rapportent que ce modèle d’IA se distingue par le fait qu’il passe plus de temps dans certaines phases d’apprentissage et « réfléchit » plus longtemps à ses réponses, ce qui le rend plus lent mais plus performant, en particulier dans les domaines où les bonnes et les mauvaises réponses sont clairement définies. La société ajoute que o1 peut « réfléchir à des tâches complexes et résoudre des problèmes plus difficiles que les modèles précédents en sciences, programmation et mathématiques ». Actuellement, o1-preview et o1-mini – une version plus petite et plus rentable adaptée à la programmation – sont disponibles en test pour les clients payants et certains développeurs. La société n'a publié aucune information sur les paramètres ou la puissance de calcul des modèles o1.

Des étudiants diplômés surperformants

Andrew White, un chimiste à FutureHouse, une organisation à but non lucratif de San Francisco qui s'intéresse à la manière dont l'IA peut être appliquée à la biologie moléculaire, affirme qu'au cours de la dernière année et demie, les observateurs depuis la sortie publique de GPT-4, ont été surpris et déçus par le manque général d’amélioration dans la manière dont les chatbots soutiennent les tâches scientifiques. Selon lui, la série o1 a changé la donne.

Remarquablement, o1 est le premier modèle de langage majeur à battre les étudiants diplômés sur la question la plus difficile – l’ensemble « Diamant » – dans un test appelé Graduate-Level Google-Proof Q&A Benchmark (GPQA). 1. OpenAI affirme que ses chercheurs ont obtenu un score d'un peu moins de 70 % dans le GPQA Diamond, tandis que o1 a obtenu un score global de 78 %, avec un score particulièrement élevé de 93 % en physique (voir « Niveau suivant »). C'est « nettement plus élevé que les performances des chatbots les mieux documentées », déclare David Rein, qui faisait partie de l'équipe qui a développé le GPQA. Rein travaille actuellement au sein de l'organisation à but non lucratif Model Evaluation and Threat Research à Berkeley, en Californie, qui évalue les risques de l'IA. "Il me semble plausible que cela représente une amélioration significative et fondamentale des capacités de base du modèle", ajoute-t-il.

OpenAI a également testé o1 lors d'un examen de qualification pour l'Olympiade internationale de mathématiques. Le meilleur modèle précédent, GPT-4o, n'a résolu correctement que 13 % des tâches, tandis que o1 a obtenu un score de 83 %.

Penser en processus

OpenAI o1 fonctionne avec une chaîne d'étapes de réflexion : il s'exprime à travers une série de considérations tout en essayant de résoudre un problème, en se corrigeant au fur et à mesure.

OpenAI a choisi de garder secrets les détails d’une chaîne d’étapes de pensée donnée – en partie parce que la chaîne peut contenir des erreurs ou des « pensées » socialement inacceptables, et en partie pour protéger les secrets d’entreprise sur le fonctionnement du modèle. Au lieu de cela, o1 propose à l'utilisateur un résumé reconstitué de sa logique, ainsi que ses réponses. Il n’est pas clair, dit White, si la séquence complète des étapes de la pensée, si elle était révélée, présenterait des similitudes avec la pensée humaine.

Les nouvelles capacités ont aussi leurs inconvénients. OpenAI rapporte avoir reçu des commentaires anecdotiques selon lesquels les modèles o1 « hallucinent » – inventent de fausses réponses – plus fréquemment que leurs prédécesseurs (bien que les tests internes de l'entreprise pour o1 aient montré des taux d'hallucinations légèrement inférieurs).

Les scientifiques de l'équipe rouge ont noté de nombreuses façons dont o1 a été utile dans l'élaboration de protocoles pour des expériences scientifiques, mais OpenAI affirme que les testeurs ont également « mis en évidence un manque d'informations de sécurité sur les étapes nuisibles, comme ne pas mettre en évidence les risques d'explosion ou suggérer des méthodes de sécurité chimique inappropriées, indiquant l'inadéquation du modèle lorsqu'il s'agit de tâches critiques pour la sécurité. »

"Il n'est pas encore suffisamment parfait ni suffisamment fiable pour ne pas nécessiter un examen minutieux", déclare White. Il ajoute que o1 est mieux adapté à Experts de premier plan comme débutants. "Il est au-delà de leurs capacités immédiates pour un débutant de consulter un journal généré par o1 et de se rendre compte que cela n'a aucun sens", dit-il.

Solutionneur de problèmes scientifiques

Krenn pense que l'o1 accélérera la science en aidant à analyser la littérature, à identifier les lacunes et à suggérer des pistes de recherche intéressantes pour les études futures. Il a intégré o1 dans un outil qu'il a contribué à développer et qui rend cela possible, appelé SciMuse. 2. « Cela génère des idées bien plus intéressantes que GPT-4 ou GPT-4o », dit-il.

Kyle Kabasares, data scientist au Bay Area Environmental Research Institute à Moffett Field, en Californie, utilisé o1 pour effectuer certaines étapes de programmation de son projet de doctorat qui calculait la masse des trous noirs. «J'ai été époustouflé», dit-il, soulignant qu'il lui a fallu environ une heure pour accomplir ce qui lui a pris plusieurs mois.

Catherine Brownstein, généticienne au Boston Children's Hospital dans le Massachusetts, affirme que l'hôpital teste actuellement plusieurs systèmes d'IA, dont o1-preview, pour des applications telles que la découverte de liens entre les caractéristiques des patients et les gènes de maladies rares. Elle dit que o1 « est plus précis et offre des options que je ne pensais pas possibles avec un chatbot ».

  1. Rein, D. et al. Préimpression sur arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).

  2. Gu, X. & Krenn, M. Préimpression sur arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).

Télécharger les références