Αφού το Google DeepMind νίκησε τους ανθρώπους σε όλα, από Παίξτε Μετάβαση σε επιτραπέζια παιχνίδια στρατηγικής,
τώρα ισχυρίζεται ότι είναι στα πρόθυρα να νικήσει τους καλύτερους μαθητές του κόσμου στην επίλυση μαθηματικών προβλημάτων.
Το με έδρα το Λονδίνο Μηχανική μάθηση Η εταιρεία ανακοίνωσε στις 25 Ιουλίου ότι τα συστήματα τεχνητής νοημοσύνης (AI) της έλυσαν τέσσερα από τα έξι προβλήματα που δόθηκαν σε μαθητές στη Διεθνή Μαθηματική Ολυμπιάδα (IMO) του 2024 στο Μπαθ του Ηνωμένου Βασιλείου. Η τεχνητή νοημοσύνη παρείχε αυστηρές, βήμα προς βήμα αποδείξεις που αξιολογήθηκαν από δύο κορυφαίους μαθηματικούς και πέτυχε βαθμολογία 28/42 - μόλις έναν βαθμό από την επικράτεια των χρυσών μεταλλίων.
«Είναι προφανώς μια πολύ σημαντική πρόοδος», λέει ο Joseph Myers, ένας μαθηματικός από το Cambridge του Ηνωμένου Βασιλείου, ο οποίος, μαζί με τον Τιμ Γκάουερς, τον μετάλλιο Fields, εξέτασαν τις λύσεις και βοήθησαν στην επιλογή των αρχικών προβλημάτων για τον φετινό ΙΜΟ.
Η DeepMind και άλλες εταιρείες βρίσκονται στον αγώνα για να παράσχουν τελικά στις μηχανές στοιχεία που έχουν σημασία Λύστε ερευνητικές ερωτήσεις στα μαθηματικά. Τα προβλήματα που παρουσιάζονται στον IMO, τον κορυφαίο διαγωνισμό για νέους μαθηματικούς στον κόσμο, έχουν γίνει σημείο αναφοράς για την πρόοδο προς αυτόν τον στόχο και θεωρούνται «μεγάλη πρόκληση» για τη μηχανική μάθηση, δήλωσε η εταιρεία.
«Είναι η πρώτη φορά που ένα σύστημα τεχνητής νοημοσύνης επιτυγχάνει επιδόσεις σε επίπεδο μεταλλίων», δήλωσε ο Pushmeet Kohli, αντιπρόεδρος της τεχνητής νοημοσύνης στην επιστήμη στο DeepMind, σε μια ενημέρωση τύπου. "Αυτό είναι ένα σημαντικό ορόσημο για τη δημιουργία προηγμένων ερευνητών αποδεικτικών στοιχείων", είπε ο Kohli.
Επέκταση
Μόλις πριν από λίγους μήνες, τον Ιανουάριο, το σύστημα DeepMind Επιτεύγματα επιπέδου μετάλλου AlphaGeometry επιτυγχάνεται στην επίλυση ενός τύπου προβλημάτων του ΙΜΟ, δηλαδή αυτών στην Ευκλείδεια γεωμετρία. Η πρώτη τεχνητή νοημοσύνη που θα επιτύχει σε επίπεδο χρυσού μετάλλου στη συνολική δοκιμασία - συμπεριλαμβανομένων ερωτήσεων στην άλγεβρα, τη συνδυαστική και τη θεωρία αριθμών, που γενικά θεωρούνται πιο απαιτητικές από τη γεωμετρία - θα είναι επιλέξιμος να λάβει ένα έπαθλο 5 εκατομμυρίων δολαρίων, το Βραβείο Ολυμπιάδας Μαθηματικών AI (AIMO). (Το βραβείο έχει αυστηρά κριτήρια όπως η αποκάλυψη του πηγαίου κώδικα και η εργασία με περιορισμένη υπολογιστική ισχύ, που σημαίνει ότι οι τρέχουσες προσπάθειες της DeepMind δεν πληρούν τις προϋποθέσεις.)
Στην τελευταία τους προσπάθεια, οι ερευνητές χρησιμοποίησαν το AlphaGeometry2 για να λύσουν το πρόβλημα της γεωμετρίας σε λιγότερο από 20 δευτερόλεπτα. Το AI είναι μια βελτιωμένη και ταχύτερη έκδοση του συστήματος εγγραφής τους, λέει ο ειδικός υπολογιστών DeepMind, Thang Luong.
Για τους άλλους τύπους ερωτήσεων, η ομάδα ανέπτυξε ένα εντελώς νέο σύστημα που ονομάζεται AlphaProof. Το AlphaProof έλυσε δύο προβλήματα άλγεβρας στον διαγωνισμό και ένα στη θεωρία αριθμών, που διήρκεσε τρεις ημέρες. (Οι συμμετέχοντες στον πραγματικό IMO έχουν δύο συνεδρίες των 4,5 ωρών η καθεμία.) Δεν ήταν σε θέση να λύσει τα δύο προβλήματα στη συνδυαστική, έναν άλλο τομέα των μαθηματικών.

Οι ερευνητές είχαν μικτά αποτελέσματα όταν απαντούσαν σε μαθηματικές ερωτήσεις χρησιμοποιώντας γλωσσικά μοντέλα - το είδος των συστημάτων που τροφοδοτούν chatbots όπως το ChatGPT. Μερικές φορές τα μοντέλα δίνουν τη σωστή απάντηση αλλά δεν μπορούν να εξηγήσουν ορθολογικά το σκεπτικό τους, και μερικές φορές εκτοξεύουν ανοησίες.
Μόλις την περασμένη εβδομάδα, μια ομάδα ερευνητών από τις εταιρείες λογισμικού Numina και HuggingFace χρησιμοποίησε ένα μοντέλο γλώσσας για να κερδίσει ένα ενδιάμεσο «βραβείο προόδου» AMIO που βασίζεται σε απλοποιημένες εκδόσεις προβλημάτων του ΙΜΟ. Οι εταιρείες έχουν κάνει ολόκληρα τα συστήματά τους ανοιχτού κώδικα και τα έχουν καταστήσει διαθέσιμα σε άλλους ερευνητές για λήψη. Αλλά οι νικητές είπανΦύση, ότι μάλλον τα γλωσσικά μοντέλα από μόνα τους δεν θα αρκούσαν για να λύσουν πιο δύσκολα προβλήματα.
Μόνο τάξη
Το AlphaProof συνδυάζει ένα μοντέλο γλώσσας με τεχνολογία ενίσχυσης εκμάθησης που χρησιμοποιεί τη μηχανή "AlphaZero" που η εταιρεία έχει χρησιμοποιήσει με επιτυχία για παιχνίδια επίθεσης όπως το Go και μερικά συγκεκριμένα μαθηματικά προβλήματα μεταχειρισμένος. Στην ενισχυτική μάθηση, ένα νευρωνικό δίκτυο μαθαίνει μέσω δοκιμής και λάθους. Αυτό λειτουργεί καλά όταν οι απαντήσεις του μπορούν να αξιολογηθούν χρησιμοποιώντας ένα αντικειμενικό πρότυπο. Για το σκοπό αυτό, η AlphaProof εκπαιδεύτηκε να διαβάζει και να γράφει αποδείξεις σε μια επίσημη γλώσσα που ονομάζεται Lean, η οποία χρησιμοποιείται στο ομώνυμο πακέτο λογισμικού «Proof Assistant», δημοφιλές στους μαθηματικούς. Για να γίνει αυτό, το AlphaProof έλεγξε εάν οι εξόδους του ήταν σωστές εκτελώντας τες στο πακέτο Lean, το οποίο βοήθησε να συμπληρωθούν ορισμένα από τα βήματα στον κώδικα.
Η εκπαίδευση ενός γλωσσικού μοντέλου απαιτεί τεράστιες ποσότητες δεδομένων, ωστόσο λίγες μαθηματικές αποδείξεις ήταν διαθέσιμες στο Lean. Για να ξεπεράσει αυτό το πρόβλημα, η ομάδα ανέπτυξε ένα πρόσθετο δίκτυο που προσπάθησε να μεταφράσει ένα υπάρχον αρχείο με ένα εκατομμύριο προβλήματα γραμμένο σε φυσική γλώσσα, αλλά χωρίς ανθρώπινη γραπτές λύσεις σε Lean, λέει ο Thomas Hubert, ερευνητής μηχανικής μάθησης της DeepMind, ο οποίος συνήλθε στην ανάπτυξη του AlphaProof. «Η προσέγγισή μας ήταν, μπορούμε να μάθουμε να αποδεικνύουμε ακόμα κι αν δεν είχαμε αρχικά εκπαιδευτεί σε ανθρώπινες γραπτές αποδείξεις;» (Η εταιρεία ακολούθησε παρόμοια προσέγγιση με το Go, όπου το AI της έμαθε να παίζει το παιχνίδι παίζοντας ενάντια στον εαυτό της και όχι από τον τρόπο που το κάνουν οι άνθρωποι.)
Μαγικά κλειδιά
Πολλές από τις Lean μεταφράσεις δεν είχαν νόημα, αλλά αρκετές ήταν αρκετά καλές για να φτάσει το AlphaProof στο σημείο όπου θα μπορούσε να ξεκινήσει τους κύκλους ενισχυτικής εκμάθησης. Τα αποτελέσματα ήταν πολύ καλύτερα από τα αναμενόμενα, είπε ο Γκάουερς στη συνέντευξη Τύπου. "Πολλά προβλήματα στον ΙΜΟ έχουν αυτήν την ιδιότητα του μαγικού κλειδιού. Το πρόβλημα φαίνεται δύσκολο στην αρχή μέχρι να βρείτε ένα μαγικό κλειδί που το ανοίγει", δήλωσε ο Gowers, ο οποίος εργάζεται στο Collège de France στο Παρίσι.
Σε ορισμένες περιπτώσεις, το AlphaProof φαινόταν να μπορεί να παρέχει αυτό το επιπλέον βήμα δημιουργικότητας παρέχοντας ένα σωστό βήμα από μια απείρως μεγάλη δυνατή λύση. Αλλά χρειάζεται περαιτέρω ανάλυση για να διαπιστωθεί εάν οι απαντήσεις ήταν λιγότερο εκπληκτικές από ό,τι φαινόταν, πρόσθεσε ο Gowers. Παρόμοιος λόγος προέκυψε μετά την έκπληξη "Τρένο 37", το DeepMinds AlphaGo bot στο δικό του διάσημη νίκη του 2016 επί του καλύτερου παίκτη του ανθρώπου Go στον κόσμο έγινε – σημείο καμπής για την τεχνητή νοημοσύνη.
Το κατά πόσον οι τεχνικές μπορούν να τελειοποιηθούν για να λειτουργήσουν σε ερευνητικό επίπεδο στα μαθηματικά μένει να φανεί, είπε ο Myers στη συνέντευξη Τύπου. «Μπορεί να επεκταθεί σε άλλους τύπους μαθηματικών που μπορεί να μην έχουν εκπαιδευμένα εκατομμύρια προβλήματα;»
«Είμαστε στο σημείο όπου μπορούν να αποδείξουν όχι μόνο ανοιχτά ερευνητικά προβλήματα, αλλά και προβλήματα που είναι πολύ προκλητικά για τους καλύτερους νέους μαθηματικούς στον κόσμο», δήλωσε ο ειδικός υπολογιστών DeepMind, David Silver, ο οποίος ήταν ο επικεφαλής ερευνητής που ανέπτυξε το AlphaGo στα μέσα της δεκαετίας του 2010.