Μπορεί να είναι υπεράνθρωπος; Τα ελαττώματα στο κορυφαίο bot δημιουργούν αμφιβολίες

Μπορεί να είναι υπεράνθρωπος; Τα ελαττώματα στο κορυφαίο bot δημιουργούν αμφιβολίες
"Το χαρτί αφήνει ένα μεγάλο ερωτηματικό για το πώς μπορεί να επιτευχθεί ο φιλόδοξος στόχος για την οικοδόμηση ισχυρών AI πράκτορες του πραγματικού κόσμου που μπορούν να εμπιστευτούν οι άνθρωποι", λέει ο Huan Zhang, επιστήμονας υπολογιστών στο Πανεπιστήμιο του Illinois Urbana-Champay. Ο Stephen Casper, επιστήμονας υπολογιστών στο Ινστιτούτο Τεχνολογίας της Μασαχουσέτης στο Cambridge, προσθέτει: "Μέχρι στιγμής παρέχει μερικές από τις ισχυρότερες αποδείξεις ότι είναι δύσκολο να εφαρμοστούν προηγμένα μοντέλα όπως αξιόπιστα όπως θέλετε".
Η ανάλυση που τον Ιούνιο 1 και δεν έχει ακόμη αξιολογηθεί-ttrack = "Data-Label" "https://www.nature.com/articles/d41586-01510-1" Data-Track-Category Text Link "> Τοποθετήστε το στόχο να δελεάσει τα συστήματα σε σφάλματα , είτε για ερευνητικούς σκοπούς είτε για κακόβουλους σκοπούς. Για παράδειγμα, ορισμένες καταχωρήσεις μπορούν να «jailbreaks» chatbots εκδίδοντας επιβλαβείς πληροφορίες που πρέπει κανονικά να καταστείλει.
Όταν το go, δύο παίκτες τοποθετούν εναλλάξ μαύρες και άσπρες πέτρες σε ένα πλέγμα για να περιβάλλουν και να συλλάβουν τις πέτρες του άλλου παίκτη. Το 2022, οι ερευνητές ανέφεραν περίπου Data-Track = "Κάντε κλικ στο" Data Action = "Anchor-Link" track track track = "Go to the Reference" Track Data Category = "Hatters Source (και Houdless). Τα bots της βρήκαν αδυναμίες που νίκησαν τακτικά το Katago, αν και τα bots δεν ήταν διαφορετικά πολύ καλά - οι ανθρώπινοι ερασιτέχνες ήταν σε θέση να τους νικήσουν. Επιπλέον, οι άνθρωποι ήταν σε θέση να καταλάβουν και να εφαρμόσουν τα κόλπα των bots για να νικήσουν το Katago.
Εκμετάλλευση του Katago
Ήταν ότι ένα μοναδικό πράγμα, ή έκανε αυτό το έργο να δείξει μια θεμελιώδη αδυναμία στο Katago και σε επέκταση, σε άλλα συστήματα AI με προφανώς υπεράνθρωπες δεξιότητες; Για να διερευνηθεί αυτό, οι ερευνητές υπό την καθοδήγηση του Adam Gleave, Διευθύνων Σύμβουλος της FAR AI, ενός μη κερδοσκοπικού ερευνητικού οργανισμού στο Berkeley, California και συν-συγγραφέα των εγγράφων από το 2022 Η πρώτη υπεράσπιση ήταν αυτή που οι προγραμματιστές του Katago είχαν ήδη χρησιμοποιήσει μετά τις επιθέσεις του 2022: Katago παραδείγματα καταστάσεων παιχνιδιών που συμμετείχαν στις επιθέσεις και άφησαν να παίξουν για να μάθουν πώς να παίζουν εναντίον αυτών των καταστάσεων. Αυτό είναι παρόμοιο με αυτό, όπως γενικά δίδαξε το πάτημα. Ωστόσο, οι συντάκτες των τελευταίων εγγράφων διαπίστωσαν ότι μια προσφορά αντιπαράθεσης έμαθε να νικήσει αυτήν την ενημερωμένη έκδοση του Katago και κέρδισε το 91 % του χρόνου. Η δεύτερη αμυντική στρατηγική που προσπάθησε η ομάδα Gleave ήταν επαναληπτική: να εκπαιδεύσει μια έκδοση του Katago ενάντια στο Adversarielle Bots, στη συνέχεια να εκπαιδεύσει τους επιτιθέμενους εναντίον του ενημερωμένου Katago και ούτω καθεξής για εννέα γύρους. Αλλά αυτό δεν οδήγησε σε μια αήττητη έκδοση του Katago. Οι επιτιθέμενοι συνέχισαν να βρίσκουν αδυναμίες, με την τελευταία επίθεση που ο Katago νίκησε το 81 % του χρόνου. Ως τρίτη στρατηγική άμυνας, οι ερευνητές εκπαιδεύουν ένα νέο σύστημα AI Go-Playing από την αρχή. Το Katago βασίζεται σε ένα μοντέλο υπολογισμού που είναι γνωστό ως συνελικτικό νευρωνικό δίκτυο (CNN). Οι ερευνητές υποψιαζόταν ότι τα CNN θα μπορούσαν να επικεντρωθούν πάρα πολύ στις τοπικές λεπτομέρειες και να παραβλέψουν τα παγκόσμια πρότυπα. Ως εκ τούτου, δημιούργησαν έναν παίκτη GO με εναλλακτική λύση
Και δεδομένου ότι οι άνθρωποι είναι σε θέση να χρησιμοποιήσουν την τακτική των αντιφατικών bots για να νικήσουν την κορυφαία go-kis, έχει νόημα να καλέσουμε αυτά τα συστήματα superhuman; "Αυτή είναι μια μεγάλη ερώτηση με την οποία σίγουρα παλεύαμε", λέει ο Gleave. "Έχουμε αρχίσει να λέμε" τυπικά υπεράνθρωση "." Ο David Wu, επιστήμονας υπολογιστών στη Νέα Υόρκη, ο οποίος ανέπτυξε για πρώτη φορά τον Katago, λέει ότι οι ισχυροί go-kis είναι "κατά μέσο όρο υπεράνθρωποι", αλλά όχι "στις χειρότερες περιπτώσεις". Η Gleave λέει ότι τα αποτελέσματα θα μπορούσαν να έχουν εκτεταμένες επιδράσεις στα συστήματα AI, συμπεριλαμβανομένου του Μοντέλα μεγάλων γλωσσών που βασίζονται σε chatbots όπως chatgpt . "Το πιο σημαντικό εύρημα για το AI είναι ότι αυτά τα αδύναμα σημεία θα είναι δύσκολο να εξαλειφθούν", λέει ο Gleave. "Εάν δεν μπορούμε να λύσουμε το πρόβλημα σε μια απλή περιοχή όπως το GO, τότε φαίνεται να υπάρχει μικρή προοπτική στο εγγύς μέλλον της επίλυσης παρόμοιων προβλημάτων όπως τα jailbreaks στο Chatt". Τι σημαίνουν τα αποτελέσματα για τη δυνατότητα δημιουργίας ενός ΑΙ που υπερβαίνει εκτενώς τις ανθρώπινες δεξιότητες είναι λιγότερο σαφές, λέει ο Zhang. "Αν και αυτό δείχνει επιφανειακά ότι οι άνθρωποι μπορεί να διατηρούν ακόμα σημαντικά γνωστικά πλεονεκτήματα έναντι του AI", λέει, "νομίζω ότι η κρίσιμη γνώση είναι ότι Δεν κατανοούμε ακόμη πλήρως τα συστήματα AI που χτίζουμε σήμερα .
- >
tseng, T., McLean, Ε., Pelrine, Κ., Wang, T. T. & Gleave, Α. Preprint at arxiv https://doi.org/10.48550/arxiv.2406.12843 (2024).
-
wang, Τ. Τ. et al. preprint στο arxiv .