Συζητήσεις για υπεράνθρωπη τεχνητή νοημοσύνη (AI) αύξηση. Ωστόσο, η έρευνα αποκάλυψε αδυναμίες σε ένα από τα πιο επιτυχημένα συστήματα AI - ένα bot που παίζει το επιτραπέζιο παιχνίδι Go και μπορεί να νικήσει τους καλύτερους ανθρώπινους παίκτες στον κόσμο - δείχνοντας ότι αυτή η υπεροχή μπορεί να είναι εύθραυστη. Η μελέτη εγείρει ερωτήματα σχετικά με το εάν πιο γενικά συστήματα τεχνητής νοημοσύνης θα μπορούσαν να είναι ευάλωτα σε ευπάθειες που θα μπορούσαν να απειλήσουν την ασφάλεια και την αξιοπιστία τους, ακόμη και τον ισχυρισμό τους ότι είναι «υπεράνθρωποι».

«Η εργασία αφήνει ένα μεγάλο ερωτηματικό για το πώς να επιτευχθεί ο φιλόδοξος στόχος της δημιουργίας ισχυρών, πραγματικών πρακτόρων τεχνητής νοημοσύνης που οι άνθρωποι μπορούν να εμπιστεύονται», λέει ο Huan Zhang, επιστήμονας υπολογιστών στο Πανεπιστήμιο του Illinois Urbana-Champaign. Ο Stephen Casper, επιστήμονας υπολογιστών στο Τεχνολογικό Ινστιτούτο της Μασαχουσέτης στο Κέιμπριτζ, προσθέτει: «Παρέχει μερικές από τις ισχυρότερες ενδείξεις μέχρι τώρα ότι είναι δύσκολο να εφαρμοστούν προηγμένα μοντέλα τόσο αξιόπιστα όσο θα ήθελε κανείς».

Η ανάλυση τον Ιούνιο δημοσιεύεται διαδικτυακά ως προεκτύπωση 1και δεν έχει ακόμη αξιολογηθεί από ομοτίμους, χρησιμοποιεί τις λεγόμενες αντίθετες επιθέσεις - η είσοδος συστημάτων AI που στοχεύουν να κάνουν τα συστήματα να κάνουν σφάλματα, είτε για ερευνητικούς σκοπούς είτε για κακόβουλους σκοπούς. Για παράδειγμα, ορισμένες είσοδοι μπορούν να «διασπάσουν» τα chatbot εκπέμποντας κακόβουλες πληροφορίες που κανονικά θα έπρεπε να καταστείλουν.

Στο Go, δύο παίκτες εναλλάξ τοποθετούν ασπρόμαυρες πέτρες σε ένα πλέγμα για να περιβάλλουν και να παγιδεύουν τις πέτρες του άλλου παίκτη. Το 2022, οι ερευνητές ανέφεραν σχετικά εκπαιδεύοντας αντίπαλα ρομπότ AI για να νικήσουν το KataGo 2, το καλύτερο σύστημα τεχνητής νοημοσύνης Go-playing ανοιχτού κώδικα που συνήθως ξεπερνά τους καλύτερους ανθρώπους άψογα (και χωρίς χειρισμό). Τα bots τους βρήκαν τρωτά σημεία που νικούσαν τακτικά το KataGo, παρόλο που τα ρομπότ δεν ήταν πολύ καλά διαφορετικά - οι άνθρωποι ερασιτέχνες μπορούσαν να τους νικήσουν. Επιπλέον, οι άνθρωποι μπόρεσαν να κατανοήσουν και να χρησιμοποιήσουν τα κόλπα των bots για να νικήσουν το KataGo.

Εκμετάλλευση του KataGo

Ήταν αυτό ένα μεμονωμένο ή μήπως αυτό το έργο έδειξε μια θεμελιώδη αδυναμία στο KataGo – και, κατ' επέκταση, σε άλλα συστήματα AI με φαινομενικά υπεράνθρωπες ικανότητες; Για να το διερευνήσουν αυτό, ερευνητές με επικεφαλής τον Adam Gleave, εκτελεστικό διευθυντή του FAR AI, ενός μη κερδοσκοπικού ερευνητικού οργανισμού στο Μπέρκλεϋ της Καλιφόρνια, και συν-συγγραφέας της εργασίας του 2022, χρησιμοποιούν AI 2, τα αντίπαλα ρομπότ για να δοκιμάσουν τρεις τρόπους υπεράσπισης των Go AI από τέτοιες επιθέσεις 1.

Η πρώτη άμυνα ήταν αυτή που είχαν ήδη χρησιμοποιήσει οι προγραμματιστές του KataGo μετά τις επιθέσεις του 2022: δίνοντας στο KataGo παραδείγματα καταστάσεων παιχνιδιού που εμπλέκονταν στις επιθέσεις και άφησαν το να παίξει για να μάθει πώς να παίζει ενάντια σε αυτές τις καταστάσεις. Αυτό είναι παρόμοιο με το πώς διδάσκεται γενικά να παίζεις Go. Ωστόσο, οι συντάκτες της τελευταίας εργασίας διαπίστωσαν ότι ένα ανταγωνιστικό ρομπότ έμαθε να νικάει ακόμη και αυτήν την ενημερωμένη έκδοση του KataGo και κέρδισε το 91% των περιπτώσεων.

Η δεύτερη αμυντική στρατηγική που δοκίμασε η ομάδα του Gleave ήταν επαναληπτική: εκπαίδευση μιας έκδοσης του KataGo ενάντια σε αντίθετα ρομπότ, μετά εκπαίδευση επιθετικών ενάντια στο ενημερωμένο KataGo και ούτω καθεξής, για εννέα γύρους. Αλλά και αυτό δεν οδήγησε σε μια ανίκητη έκδοση του KataGo. Οι επιτιθέμενοι συνέχισαν να βρίσκουν τρωτά σημεία, με την τελευταία επίθεση να νικάει το KataGo το 81% του χρόνου.

Ως τρίτη αμυντική στρατηγική, οι ερευνητές εκπαίδευσαν ένα νέο σύστημα AI Go-playing από την αρχή. Το KataGo βασίζεται σε ένα υπολογιστικό μοντέλο γνωστό ως συνελικτικό νευρωνικό δίκτυο (CNN). Οι ερευνητές υποψιάστηκαν ότι τα CNN μπορεί να εστιάζουν υπερβολικά σε τοπικές λεπτομέρειες και να χάνουν παγκόσμια μοτίβα. Έφτιαξαν λοιπόν ένα Go player με εναλλακτική νευρικό σύστημα που ονομάζεται μετασχηματιστής όρασης (ViT). Αλλά το αντίπαλο bot τους βρήκε μια νέα επίθεση που το βοήθησε να κερδίσει το σύστημα ViT στο 78% των περιπτώσεων.

Αδύναμοι αντίπαλοι

Σε όλες αυτές τις περιπτώσεις, τα ανταγωνιστικά ρομπότ - αν και ικανά να νικήσουν το KataGo και άλλα κορυφαία συστήματα Go-playing - εκπαιδεύτηκαν να ανακαλύπτουν κρυμμένα τρωτά σημεία σε άλλα AI, αντί να είναι καλά στρογγυλεμένοι στρατηγικοί. «Οι αντίπαλοι είναι ακόμα αρκετά αδύναμοι – τους νικήσαμε πολύ εύκολα», λέει ο Gleave.

Και εφόσον οι άνθρωποι είναι σε θέση να χρησιμοποιήσουν τις τακτικές των αντίπαλων ρομπότ για να νικήσουν τα κορυφαία Go AI, εξακολουθεί να έχει νόημα να αποκαλούμε αυτά τα συστήματα υπεράνθρωπα; «Αυτή είναι μια υπέροχη ερώτηση και σίγουρα έχω παλέψει», λέει ο Gleave. «Αρχίσαμε να λέμε «συνήθως υπεράνθρωπος». Ο David Wu, ένας επιστήμονας υπολογιστών στη Νέα Υόρκη που ανέπτυξε πρώτος το KataGo, λέει ότι τα ισχυρά Go AI είναι «υπεράνθρωπα κατά μέσο όρο», αλλά όχι «στις χειρότερες περιπτώσεις».

Ο Gleave λέει ότι τα ευρήματα θα μπορούσαν να έχουν εκτεταμένες επιπτώσεις για τα συστήματα AI, συμπεριλαμβανομένου του μεγάλα μοντέλα γλώσσας που αποτελούν τη βάση των chatbots όπως το ChatGPT. «Το κλειδί για την τεχνητή νοημοσύνη είναι ότι αυτά τα τρωτά σημεία θα είναι δύσκολο να αντιμετωπιστούν», λέει ο Gleave. "Εάν δεν μπορούμε να λύσουμε το πρόβλημα σε μια απλή περιοχή όπως το Go, τότε φαίνεται να υπάρχει μικρή προοπτική να διορθώσουμε παρόμοια προβλήματα όπως jailbreak στο ChatGPT στο εγγύς μέλλον."

Το τι σημαίνουν τα αποτελέσματα για τη δυνατότητα δημιουργίας τεχνητής νοημοσύνης που ξεπερνά συνολικά τις ανθρώπινες δυνατότητες είναι λιγότερο σαφές, λέει ο Zhang. «Αν και επιφανειακά αυτό υποδηλώνει ότι οι άνθρωποι μπορεί να διατηρήσουν σημαντικά γνωστικά πλεονεκτήματα έναντι της τεχνητής νοημοσύνης για κάποιο χρονικό διάστημα», λέει, «Πιστεύω ότι η βασική ιδέα είναι ότι Δεν κατανοούμε ακόμη πλήρως τα συστήματα AI που κατασκευάζουμε σήμερα