Ο επιστήμονας εντυπωσιάστηκε από το τελευταίο μοντέλο ChatGPT o1
Οι επιστήμονες επαινούν το νέο μοντέλο ChatGPT o1 του OpenAI για τις εντυπωσιακές του προόδους στην επιστημονική υποστήριξη.

Ο επιστήμονας εντυπωσιάστηκε από το τελευταίο μοντέλο ChatGPT o1
Οι ερευνητές που βοήθησαν στη δοκιμή του νέου μοντέλου μεγάλης γλώσσας του OpenAI, OpenAI o1, λένε ότι είναι ένα μεγάλο βήμα προς τα εμπρός όσον αφορά Χρησιμότητα των chatbots για την επιστήμη αντιπροσωπεύει.
«Στον τομέα μου της κβαντικής φυσικής, υπάρχουν πολύ πιο λεπτομερείς και συνεκτικές απαντήσεις» από ό,τι με το προηγούμενο μοντέλο, το GPT-4o, λέει ο Mario Krenn, επικεφαλής του Εργαστηρίου Τεχνητών Επιστημόνων στο Ινστιτούτο Max Planck για τη Φυσική του Φωτός στο Erlangen της Γερμανίας. Ο Krenn συμμετείχε σε μια ομάδα επιστημόνων της «Red Team» που δοκίμασαν την προ-κυκλοφορία του o1 για την OpenAI, μια εταιρεία τεχνολογίας με έδρα το Σαν Φρανσίσκο της Καλιφόρνια, βάζοντας το bot στο ρυθμό του και ελέγχοντας για ανησυχίες ασφαλείας.
Από η δημόσια κυκλοφορία του ChatGPT το 2022 Κατά μέσο όρο, τα μεγάλα μοντέλα γλώσσας που τροφοδοτούν τέτοια chatbots έχουν γίνει μεγαλύτερα και καλύτερα, με περισσότερες παραμέτρους, μεγαλύτερα σύνολα δεδομένων εκπαίδευσης και ισχυρότερες δεξιότητες σε μια ποικιλία τυποποιημένων τεστ.
Το OpenAI εξηγεί ότι το o1 σειρά αντιπροσωπεύει μια θεμελιώδη αλλαγή στην προσέγγιση της εταιρείας. Οι παρατηρητές αναφέρουν ότι αυτό το μοντέλο τεχνητής νοημοσύνης ξεχωρίζει επειδή έχει αφιερώσει περισσότερο χρόνο σε ορισμένες φάσεις εκμάθησης και «σκέφτεται» περισσότερο τις απαντήσεις του, καθιστώντας το πιο αργό αλλά πιο ικανό - ειδικά σε τομείς όπου οι σωστές και οι λάθος απαντήσεις ορίζονται σαφώς. Η εταιρεία προσθέτει ότι το o1 μπορεί «να σκέφτεται μέσα από πολύπλοκες εργασίες και να λύνει πιο δύσκολα προβλήματα από προηγούμενα μοντέλα στην επιστήμη, τον προγραμματισμό και τα μαθηματικά». Επί του παρόντος, το o1-preview και το o1-mini - μια μικρότερη, πιο οικονομική έκδοση κατάλληλη για προγραμματισμό - είναι διαθέσιμα σε δοκιμές για πελάτες που πληρώνουν και ορισμένους προγραμματιστές. Η εταιρεία δεν έχει δημοσιεύσει καμία πληροφορία σχετικά με τις παραμέτρους ή την υπολογιστική ισχύ των μοντέλων o1.
Οι μεταπτυχιακοί φοιτητές που ξεπερνούν τις επιδόσεις
Andrew White, α φαρμακοποιός στο FutureHouse, ένας μη κερδοσκοπικός οργανισμός του Σαν Φρανσίσκο που επικεντρώνεται στον τρόπο με τον οποίο η τεχνητή νοημοσύνη μπορεί να εφαρμοστεί στη μοριακή βιολογία, λέει ότι τον τελευταίο ενάμιση χρόνο, οι παρατηρητές από τη δημόσια κυκλοφορία του GPT-4, εξεπλάγησαν και απογοητεύτηκαν από τη γενική έλλειψη βελτίωσης στον τρόπο με τον οποίο τα chatbot υποστηρίζουν επιστημονικές εργασίες. Η σειρά o1, πιστεύει, το έχει αλλάξει αυτό.
Είναι αξιοσημείωτο ότι η o1 είναι το πρώτο σημαντικό γλωσσικό μοντέλο που ξεπέρασε τους μεταπτυχιακούς φοιτητές στην πιο δύσκολη ερώτηση - το σετ «Diamond» - σε μια δοκιμή που ονομάζεται Graduate-Level Google-Proof Q&A Benchmark (GPQA). 1. Η OpenAI λέει ότι οι ερευνητές της σημείωσαν λίγο λιγότερο από 70% στο GPQA Diamond, ενώ η o1 σημείωσε συνολικά 78%, με ιδιαίτερα υψηλή βαθμολογία 93% στη Φυσική (βλ. «Επόμενο Επίπεδο»). Αυτό είναι "σημαντικά υψηλότερο από την επόμενη καλύτερα τεκμηριωμένη απόδοση [chatbot]", λέει ο David Rein, ο οποίος ήταν μέλος της ομάδας που ανέπτυξε το GPQA. Ο Rein εργάζεται επί του παρόντος στη μη κερδοσκοπική εταιρεία Model Evaluation and Threat Research στο Μπέρκλεϊ της Καλιφόρνια, η οποία αξιολογεί τους κινδύνους της τεχνητής νοημοσύνης. «Μου φαίνεται εύλογο ότι αυτό αντιπροσωπεύει μια σημαντική και θεμελιώδη βελτίωση στις βασικές δυνατότητες του μοντέλου», προσθέτει.
Το OpenAI δοκίμασε επίσης το o1 σε κατατακτήριες εξετάσεις για τη Διεθνή Ολυμπιάδα Μαθηματικών. Το προηγούμενο καλύτερο μοντέλο, το GPT-4o, έλυσε μόνο το 13% των εργασιών σωστά, ενώ το o1 σημείωσε 83%.
Σκέψη σε διαδικασίες
Το OpenAI o1 λειτουργεί με μια αλυσίδα βημάτων σκέψης: μιλάει μέσα από μια σειρά προβληματισμών καθώς προσπαθεί να λύσει ένα πρόβλημα, διορθώνοντας τον εαυτό του καθώς προχωρά.
Το OpenAI επέλεξε να κρατήσει μυστικές τις λεπτομέρειες μιας δεδομένης αλυσίδας σκέψης — εν μέρει επειδή η αλυσίδα μπορεί να περιέχει λάθη ή κοινωνικά απαράδεκτες «σκέψεις» και εν μέρει για να προστατεύσει τα εταιρικά μυστικά σχετικά με τον τρόπο λειτουργίας του μοντέλου. Αντίθετα, το o1 προσφέρει μια ανακατασκευασμένη περίληψη της λογικής του για τον χρήστη, μαζί με τις απαντήσεις του. Δεν είναι σαφές, λέει ο White, εάν η πλήρης ακολουθία των βημάτων της σκέψης, εάν αποκαλυφθεί, θα είχε οποιεσδήποτε ομοιότητες με την ανθρώπινη σκέψη.
Οι νέες ικανότητες έχουν και τα αρνητικά τους. Το OpenAI αναφέρει ότι έχει λάβει ανέκδοτα σχόλια ότι τα μοντέλα o1 «παραισθάνονται» — εφευρίσκουν ψευδείς απαντήσεις — πιο συχνά από τους προκατόχους τους (αν και οι εσωτερικές δοκιμές της εταιρείας για το o1 έδειξε ελαφρώς χαμηλότερα ποσοστά ψευδαισθήσεων).
Οι επιστήμονες της Red Team σημείωσαν πολλούς τρόπους με τους οποίους το o1 ήταν χρήσιμο στην ανάπτυξη πρωτοκόλλων για επιστημονικά πειράματα, αλλά το OpenAI λέει ότι οι δοκιμαστές τόνισαν επίσης την έλλειψη πληροφοριών ασφάλειας σχετικά με επιβλαβή βήματα, όπως η μη επισήμανση των κινδύνων έκρηξης ή η πρόταση ακατάλληλων μεθόδων χημικής ασφάλειας, υποδεικνύοντας την ανεπάρκεια του μοντέλου όταν πρόκειται για κρίσιμες εργασίες.
«Ακόμα δεν είναι τέλειο ή αρκετά αξιόπιστο για να μην χρειάζεται έλεγχος», λέει ο White. Προσθέτει ότι το o1 ταιριάζει καλύτερα Κορυφαίοι ειδικοί ως αρχάριοι. "Είναι πέρα από την άμεση ικανότητά τους για έναν αρχάριο να κοιτάξει ένα κούτσουρο που δημιουργείται από το o1 και να συνειδητοποιήσει ότι είναι "ανοησία"", λέει.
Επίλυση προβλημάτων επιστήμης
Ο Krenn πιστεύει ότι το o1 θα επιταχύνει την επιστήμη βοηθώντας στη σάρωση της βιβλιογραφίας, στον εντοπισμό κενών και στην πρόταση ενδιαφέρουσες ερευνητικές οδούς για μελλοντικές μελέτες. Ενσωμάτωσε το o1 σε ένα εργαλείο που βοήθησε στην ανάπτυξη που το καθιστά δυνατό, που ονομάζεται SciMuse 2. «Δημιουργεί πολύ πιο ενδιαφέρουσες ιδέες από το GPT-4 ή το GPT-4o», λέει.
Kyle Kabasares, επιστήμονας δεδομένων στο Ινστιτούτο Περιβαλλοντικής Έρευνας Bay Area στο Moffett Field, Καλιφόρνια, χρησιμοποίησε το o1 για να κάνει κάποια βήματα προγραμματισμού από το διδακτορικό του έργο που υπολόγιζε τη μάζα των μαύρων τρυπών. «Μόλις ενθουσιάστηκα», λέει, σημειώνοντας ότι χρειάστηκε περίπου μία ώρα για να ολοκληρώσει αυτό που του πήρε πολλούς μήνες.
Η Catherine Brownstein, γενετιστής στο Boston Children's Hospital στη Μασαχουσέτη, λέει ότι το νοσοκομείο δοκιμάζει επί του παρόντος πολλά συστήματα AI, συμπεριλαμβανομένου του o1-preview, για εφαρμογές όπως η αποκάλυψη συνδέσεων μεταξύ των χαρακτηριστικών του ασθενούς και των γονιδίων σπάνιων ασθενειών. Λέει ότι το o1 "είναι πιο ακριβές και προσφέρει επιλογές που δεν πίστευα ότι ήταν δυνατές από ένα chatbot".
-
Rein, D. et αϊ. Προεκτύπωση στο arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).
-
Gu, X. & Krenn, M. Preprint στο arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).