Οι επιστήμονες εντυπωσίασαν το τελευταίο μοντέλο CHATGPT O1

Οι επιστήμονες εντυπωσίασαν το τελευταίο μοντέλο CHATGPT O1
ερευνητές που βοήθησαν να δοκιμάσουν το νέο μοντέλο μεγάλου γλωσσικού από το OpenAI, OpenAI O1, λένε ότι είναι ένα μεγάλο βήμα από την άποψη του Αντιπροσωπεύει η επιστήμη .
"Στην περιοχή της κβαντικής φυσικής, υπάρχουν πολύ πιο λεπτομερείς και πιο συνεκτικές απαντήσεις" από ό, τι στο προηγούμενο μοντέλο, GPT-4O, λέει ο Mario Krenn, επικεφαλής του εργαστηρίου τεχνητών επιστημόνων στο Ινστιτούτο Max Planck για τη Φυσική του Φωτός στο Erlangen της Γερμανίας. Ο Krenn ανήκε σε μια ομάδα επιστημόνων στην «κόκκινη ομάδα», η οποία εξέτασε την προ -ημερομηνία από την O1 για την Openai, μια τεχνολογική εταιρεία που εδρεύει στο Σαν Φρανσίσκο της Καλιφόρνια, δοκιμάζοντας το bot και τον έλεγχο των ανησυχιών για την ασφάλεια.
Δεδομένου ότι σε μεγάλο αριθμό τυποποιημένων δοκιμών
openaai εξηγεί ότι το
υπερβαίνει τους διδακτορικούς μαθητές Andrew White, a Η δημόσια δημοσίευση του GPT-4 ήταν έκπληκτος και απογοητευμένος από μια γενική έλλειψη βελτιώσεων στην υποστήριξη των επιστημονικών καθηκόντων από το chatbots.
Αξιοσημείωτο είναι το O1 Το πρώτο σημαντικό γλωσσικό μοντέλο που οι διδακτορικοί φοιτητές στο πιο δύσκολο ερώτημα-το "Diamond"-που ονομάζονται μεταπτυχιακές σειρές Google-Proof Q & A Benchmark (GPQA) beats
Το OpenAAI εξέτασε επίσης το O1 κατά τη διάρκεια μιας δοκιμής για την Διεθνή Ολυμπιάδα Μαθηματικών. Το προηγούμενο καλύτερο μοντέλο, το GPT-4O, επιλύθηκε σωστά το 13 % των εργασιών, ενώ η O1 πέτυχε το 83 %. Σκεφτείτε στις διαδικασίες Το OpenAi O1 συνεργάζεται με μια αλυσίδα μνημείων: μιλάει μέσω πολλών εκτιμήσεων ενώ προσπαθεί να λύσει ένα πρόβλημα και να διορθωθεί. OpenAAI αποφάσισε να διατηρήσει τις λεπτομέρειες μιας δεδομένης αλυσίδας σκέψης - εν μέρει επειδή η αλυσίδα θα μπορούσε να περιέχει σφάλματα ή κοινωνικά μη αποδεκτές «σκέψεις» και εν μέρει για την προστασία των εταιρικών μυστικών για το πώς λειτουργεί το μοντέλο. Αντ 'αυτού, το O1 προσφέρει μια ανακατασκευασμένη περίληψη της λογικής του για τον χρήστη μαζί με τις απαντήσεις του. Δεν είναι σαφές, σύμφωνα με τον White, είτε η πλήρης αλυσίδα των μυαλών, αν αποκαλυφθεί, θα είχε ομοιότητες με την ανθρώπινη σκέψη. Οι νέες δεξιότητες έχουν επίσης τις σκοτεινές πλευρές τους. Η OpenAI αναφέρει ότι έχει λάβει ανεκδοτική ανατροφοδότηση ότι τα μοντέλα O1 "παραισθούν" πιο συχνά αποδίδουν ψευδείς απαντήσεις-ως προκατόχους τους (αν και οι εσωτερικές δοκιμές για το O1 δείχνουν ελαφρώς χαμηλότερα ποσοστά ψευδαισθήσεων). Οι επιστήμονες της Red Team έχουν βρει πολλές επιλογές για το πώς η O1 ήταν χρήσιμη στην ανάπτυξη πρωτοκόλλων για επιστημονικά πειράματα, αλλά ο OpenAAI λέει ότι οι δοκιμαστές έδειξαν επίσης ότι «η έλλειψη πληροφοριών για την ασφάλεια σχετικά με τα επιβλαβή βήματα, όπως η μη αφαίρεση των κινδύνων έκρηξης ή οι προτάσεις που δεν έχουν επαρκείς μεθόδους χημικής ασφάλειας, γεγονός που υποδηλώνει την ανεπαρκή περιποίηση του μοντέλου, όταν η έλλειψη κρίσιμων καθηκόντων για επιβλαβή βήματα, "Δεν είναι ακόμα τέλειο ή αρκετά αξιόπιστο ώστε να μην χρειάζεται να ελέγχεται ακριβώς", λέει ο White. Προσθέτει ότι το O1 είναι πιο κατάλληλο για το . "Για έναν αρχάριο, είναι πέρα από την άμεση ικανότητά της να εξετάσει ένα πρωτόκολλο που παράγεται από το O1 και να αναγνωρίσει ότι είναι" ανοησία "," λέει. Επίλυση προβλημάτων της επιστήμης Krenn πιστεύει ότι το O1 θα επιταχύνει την επιστήμη, βοηθώντας στη σάρωση της βιβλιογραφίας, αναγνωρίζοντας τα κενά και προτείνοντας ενδιαφέρουσες ερευνητικές προσεγγίσεις για μελλοντικές μελέτες. Ενσωμάτωσε το O1 σε ένα εργαλείο που έχει αναπτύξει και αυτό επιτρέπει αυτό που ονομάζεται scimuse 2 . "Δημιουργεί πολύ πιο ενδιαφέρουσες ιδέες από το GPT-4 ή το GPT-4O", λέει. Kyle Kabasares, επιστήμονας δεδομένων στο Ινστιτούτο Περιβαλλοντικής Έρευνας του Bay Area στο Moffett Field, Καλιφόρνια, Χρησιμοποιήστε O1 για να αναπαράγετε ορισμένα βήματα προγραμματισμού από το διδακτορικό του έργο, το οποίο υπολόγισε τη μάζα των μαύρων οπών. «Ήμουν απλά συγκλονισμένος», λέει, παρατηρώντας ότι ο O1 χρειάστηκε περίπου μια ώρα για να επιτύχει αυτό που τον κοστίζει για πολλούς μήνες. Η Catherine Brownstein, γενετιστής στο Νοσοκομείο Παιδιών της Βοστώνης στη Μασαχουσέτη, λέει ότι το νοσοκομείο δοκιμάζει επί του παρόντος διάφορα συστήματα AI, συμπεριλαμβανομένης της προεπισκόπησης O1, για εφαρμογές όπως η αποκάλυψη σχέσεων μεταξύ των χαρακτηριστικών του ασθενούς και των γονιδίων για σπάνιες ασθένειες. Λέει ότι το O1 "είναι πιο ακριβές και προσφέρει επιλογές που δεν πίστευα ότι ήταν δυνατές από ένα bot chat". rein, D. et al. Preprint στο arxiv (2023). gu, x. & krenn, m. preprint στο arxiv https://doi.org/10.48550/arxiv.2405.17044 (2024).