DeepMind bereikt mijlpaal in de oplossing van wiskundige problemen - de volgende grote uitdaging voor AI

DeepMind bereikt mijlpaal in de oplossing van wiskundige problemen - de volgende grote uitdaging voor AI
Nadat Google Deepmind mensen in alles versloeg, van Game gaat naar strategiebordspellen ,
Beweert nu op het punt te staan om 's werelds beste studenten te verslaan bij het oplossen van wiskundetaken.
De in Londen gevestigde Machine-Learning Bedrijf heeft op 25 juli aangekondigd dat zijn kunstmatige intelligentie (KI) -systemen vier van de zes taken hebben opgelost die werden gegeven aan de studenten van de International Mathematics Olymatics (IMO) 2024 in Bath, Groot-Brittannië. De AI leverde rigoureus, geleidelijk bewijs, die werden geëvalueerd door twee topwiskunde en behaalde een score van 28/42 slechts één punt uit het gebied van gouden medailles.
"Het is duidelijk een zeer belangrijke vooruitgang", zegt Joseph Myers, een wiskundige uit Cambridge, Groot -Brittannië, die samen met Fields -medaillewinnaar Tim Gowers de oplossingen controleerde en de oorspronkelijke problemen voor dit jaar hielp selecteren.
DeepMind en andere bedrijven zijn in de race om uiteindelijk bewijs te leveren van machines, de essentiële Los onderzoeksvragen op in wiskunde . De problemen met de IMO, 's werelds leidende competitie voor jonge wiskundigen, zijn een maatstaf geworden voor vooruitgang in de richting van dit doel en worden gezien als een "grote uitdaging" voor machine learning, volgens het bedrijf.
"Dit is de eerste keer dat een AI -systeem in staat was om diensten te bereiken op medailliveau," zei PushMeet Kohli, vice -president voor AI in Science at DeepMind, in een persconsult. "Dit is een belangrijke mijlpaal op weg naar het opbouwen van progressief bewijs", zei Kohli.
extensie
slechts enkele maanden geleden, in januari, het DeepMind-systeem Alphageometry Services op medaillesniveau Bij het oplossen van een type IMO-problemen, namely die in de EUCLIDAN-geometrie. De eerste AI die op een gouden medaillegehalte werkt voor de algemene test-inclusief vragen in algebra, combinatorisch en getaltheorie, die over het algemeen als veeleisender worden beschouwd dan geometrie-is het recht om een prijs van $ 5 miljoen te verkrijgen, de AI Math Olympiade Prize (AIMO). (De prijs heeft strikte criteria zoals de openbaarmaking van de broncode en het werk met beperkte rekenkracht, wat betekent dat de huidige inspanningen van DeepMind niet in aanmerking zouden komen.)
In hun nieuwste poging gebruikten onderzoekers alfageometrie2 om het geometrieprobleem in minder dan 20 seconden op te lossen; De AI is een verbeterde en snellere versie van uw recordsysteem, zegt de DeepMind -computerspecialist Thang Luong.
Voor de andere soorten vragen ontwikkelde het team een volledig nieuw systeem genaamd Alphaproof. Alphaproof loste twee algebra -problemen op in de competitie en één in aantal theorie, waarvoor het drie dagen duurde. (De deelnemers van de werkelijke IMO hebben elk twee sessies van elk 4,5 uur.) Het was niet in staat om de twee problemen in de combinatie op te lossen, een ander gebied van wiskunde.

Onderzoekers hebben gemengde resultaten behaald wanneer ze wiskundige vragen beantwoorden met spraakmodellen - het type systeem dat chatbots zoals Chatt aandrijft. Soms geven de modellen het juiste antwoord, maar kunnen hun redenering rationeel niet uitleggen, en soms
Pas vorige week gebruikte een team van softwarebedrijven Numina en Huggingface een spraakmodel om een tussenliggende Amio 'Progress Prijs' te winnen op basis van vereenvoudigde versies van IMO -problemen. De bedrijven maakten hun hele systemen open source en stelden het beschikbaar voor het downloaden van andere onderzoekers. Maar de winnaars zeiden Nature dat taalmodellen alleen waarschijnlijk niet voldoende zouden zijn om moeilijke problemen op te lossen. Alphaproof combineert een spraakmodel met de technologie van het versterken van het leren, die de "Alphazero" -motor voor aanvalsgames zoals Go, evenals Specifieke wiskundige problemen . Met toenemend leren leert een neuraal netwerk door experimenten en fouten. Dit werkt goed als de antwoorden kunnen worden geëvalueerd met behulp van een objectieve schaal. Voor dit doel werd Alphaproof getraind om bewijsmateriaal te lezen en te schrijven in een formele taal genaamd Lean, die wordt gebruikt in het softwarepakket van 'Proof Assistant' met dezelfde naam die populair is bij wiskundigen. Hiervoor testte Alphaproof of zijn uitgaven correct waren door ze te doen in het Lean -pakket, dat hielp om enkele stappen in de code in te vullen. De training van een spraakmodel vereist enorme hoeveelheden gegevens, maar slechts enkele wiskundig bewijs waren beschikbaar in Lean. Om dit probleem op te lossen, ontwikkelde het team een extra netwerk dat probeerde een bestaande opname van een miljoen problemen te vertalen die in natuurlijke taal werden geschreven, maar zonder oplossingen te vertalen in Lean, zegt Thomas Hubert, een onderzoeker van de Deepmind Machine -leerling die de ontwikkeling van alphaproof uitvoerde. "We kunnen leren onze aanpak te bewijzen, zelfs als we oorspronkelijk niet hebben getraind in door mensen geschreven bewijsmateriaal?" (Het bedrijf was vergelijkbaar met The Go, waar zijn AI leerde het spel spelen door tegen zichzelf te spelen, in plaats van de manier waarop mensen dat doen.) Veel van de magere vertalingen hadden geen zin, maar genoeg waren goed genoeg om alfaproof tot het punt te brengen waar het zijn toenemende leercycli kon beginnen. De resultaten waren veel beter dan verwacht, zei Gowers tijdens het persconsult. "Veel problemen met de IMO hebben deze eigenschap van de magische sleutel. Het probleem ziet er eerst moeilijk uit totdat je een magische sleutel vindt die het opent," zei Gowers, die in de Collège de France in Parijs werkt. In sommige gevallen leek Alphaproof deze extra stap van creativiteit te kunnen zetten door het een juiste stap te geven van een oneindig grote mogelijke oplossing. Maar verdere analyse is vereist om te bepalen of de antwoorden minder verrassend waren dan ze eruit zagen, voegde gowers toe. Een soortgelijk discours ontstond na de verrassende 'Zug 37' , The DeepMinds Alphago-Bot At His alleen klasse
magische sleutel
Het valt nog te bezien of de technieken kunnen worden geperfectioneerd om te werken op een niveau van onderzoek in de wiskunde, zei Myers bij de persbeoordeling. "Kan het uitbreiden naar andere soorten wiskunde waar geen miljoenen problemen kunnen worden getraind?"
"We hebben het punt bereikt waarop u niet alleen open onderzoeksproblemen kunt bewijzen, maar ook problemen die zeer uitdagend zijn voor de allerbeste jonge wiskundigen ter wereld," zei Deepmind-computerspecialist David Silver, die de toonaangevende onderzoeker was in de ontwikkeling van AlphaGo in het midden van 2011.