Les scientifiques ont été impressionnés par le dernier modèle Chatgpt O1

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
Les scientifiques louent le nouveau modèle Chatgpt O1 d'Openai pour ses progrès impressionnants dans le soutien scientifique. (Symbolbild/natur.wiki)

Les scientifiques ont été impressionnés par le dernier modèle Chatgpt O1

Les chercheurs qui ont aidé à tester le nouveau modèle de grande langue à partir d'Openai, Openai O1, disent que c'est une grande étape en termes de Utilisation de chatbots pour la science Représente.

"Dans mon domaine de physique quantique, il y a des réponses beaucoup plus détaillées et plus cohérentes" que dans le modèle précédent, GPT-4O, explique Mario Krenn, responsable du laboratoire des scientifiques artificiels au Max Planck Institute for the Physics of Light à Erlangen, en Allemagne. Krenn appartenait à un groupe de scientifiques de «l'équipe rouge», qui a testé la pré-datation de O1 pour Openai, une entreprise technologique basée à San Francisco, en Californie, en essayant le bot et en les vérifiant sur des problèmes de sécurité.

Depuis The Public Introduction de Chatg dans 2022221/a> All-the Body Link"> The Public Introduction of Chatg dans 202222 Catégorie = "Ared Link" Modèles de grande langue qui stimulent ces chatbots, en moyenne plus grand et meilleur, avec plus de paramètres, des ensembles de données de formation plus importants et Compétences dans un grand nombre de tests standardisés .

OpenAai explique que le

dépasser les doctorants

Andrew White, A Chemmist AT FVENET À San Francisco, qui se concentre sur la façon dont l'IA peut être utilisée dans la biologie moléculaire, dit que l'observateur au cours de la dernière année et demie href = "https://www.nature.com/articles/d41586-023-00816-5" data-track = "cliquez". "https://www.nature.com/articles/d41586-00816-5" Data-Track-Category = "Body Text"> Publication publique de GPT-4 , ont été surpris et déçus par un manque général d'amélioration de la prise en charge des tâches scientifiques par les chatons.

Remarque est O1 le premier modèle de langue majeure que les doctorants dans la question la plus difficile - les battements de benchmark (GPQA) «diamant»

OpenAai a également testé O1 lors d'un test de qualification pour l'Olympiade internationale en mathématiques. Le meilleur modèle précédent, GPT-4O, n'a résolu que correctement 13% des tâches, tandis que O1 a atteint 83%.

Pensez dans les processus

Openai O1 fonctionne avec une chaîne d'étapes commémoratives: il parle de plusieurs considérations tout en essayant de résoudre un problème et se corrige.

OpenAai a décidé de garder les détails d'une chaîne de pensée donnée - en partie parce que la chaîne pourrait contenir des erreurs ou des «pensées» socialement non acceptables, et en partie pour protéger les secrets des entreprises sur le fonctionnement du modèle. Au lieu de cela, O1 offre un résumé reconstruit de sa logique pour l'utilisateur avec ses réponses. Il n'est pas clair, selon White, si la chaîne d'esprit complète, si elle était révélée, aurait des similitudes avec la pensée humaine.

Les nouvelles compétences ont également leurs côtés sombres. OpenAI rapporte qu'il a reçu des commentaires anecdotiques selon lesquels O1 "hallucine" invente plus souvent de fausses réponses - comme leurs prédécesseurs (bien que les tests internes pour O1 présentent des taux d'hallucination légèrement inférieurs).

Les scientifiques de l'équipe rouge ont trouvé de nombreuses options sur la façon dont l'O1 a été utile pour développer des protocoles pour des expériences scientifiques, mais OpenAai dit que les testeurs ont également montré «le manque d'informations sur la sécurité sur des étapes nuisibles, telles que la non-élimination des dangers d'explosion ou les suggestions de méthodes de sécurité chimique inadéquat, qui indique l'insuffisance du modèle lorsque cela arrive en matière de création de sécurité.

"Il n'est toujours pas parfait ou fiable pour ne pas avoir à vérifier exactement", explique White. Il ajoute que O1 est plus adapté à . "Pour un débutant, c'est au-delà de sa capacité immédiate à examiner un protocole généré par O1 et à reconnaître qu'il est" absurde "", dit-il.

Solveur de problèmes de science

Krenn croit que l'O1 accélérera la science en aidant à scanner la littérature, à reconnaître les lacunes et à proposer des approches de recherche intéressantes pour de futures études. Il a intégré O1 dans un outil qu'il a développé et cela permet à celui-ci appelé scimuse 2 . "Il génère des idées beaucoup plus intéressantes que GPT-4 ou GPT-4O", dit-il.

Kyle Kabasares, un scientifique des données au Bay Area Environmental Research Institute à Moffett Field, Californie, Utilisez O1 pour reproduire certaines étapes de programmation de son projet de doctorat, qui a calculé la masse de trous noirs. "J'étais juste dépassé", dit-il, remarquant que l'O1 avait besoin d'environ une heure pour réaliser ce qui lui a coûté pendant plusieurs mois.

Catherine Brownstein, généticienne à l'hôpital pour enfants de Boston dans le Massachusetts, dit que l'hôpital teste actuellement plusieurs systèmes d'IA, y compris l'aperçu de l'O1, pour des applications telles que la découverte de relations entre les caractéristiques des patients et les gènes pour les maladies rares. Elle dit que O1 "est plus précis et offre des options que je ne pensais pas qu'ils étaient possibles à partir d'un bot de chat".

  1. rein, D. et al. Preprint à arXiv https://doi.org/10.48550/arxiv.2311.12022 (2023).

  2. gu, x. & krenn, M. preprint at arXiv https://doi.org/10.48550/arxiv.2405.17044 (2024).

  3. Télécharger des références