Het kunstmatig intelligente systeem MuZero is in staat om ieder mens te verslaan in potjes schaken, go en zelfs Atari-computerspelletjes. Om dat voor elkaar te krijgen, hoeft het systeem niet eens de regels te kennen.
Het door DeepMind ontwikkelde MuZero is daarmee nog indrukwekkender dan zijn voorganger AlphaZero. Dat AI-systeem leerde hoe hij zijn tegenstanders te slim af kon zijn op een schaakbord, bij een potje van de Japanse schaakvariant shogi en bij het Chinese bordspel go. Bij alle drie de spellen wist AlphaZero de beste menselijke spelers te verslaan.
De strategie daarbij was vrij eenvoudig: leer het systeem alle regels van het spel en laat het vervolgens miljoenen potjes spelen. Gaandeweg leert het programma wat de succesvolle zetten zijn en welke acties leiden tot een nederlaag. Zo wordt het steeds een beetje beter, totdat het een ware schaakmeester (of go-meester, of shogi-meester) is. Het is een vorm van machinaal leren: een techniek waarbij kunstmatige intelligentie zichzelf steeds bijstelt op basis van zijn eerdere ervaringen.
Heersen zwermen killerdrones straks over het slagveld?
Een luchtruim gevuld door kunstmatig intelligente killerdrones, die autonoom bepalen wie blijft leven en wie zal sterven. Hoe waarschijnlijk is dat?
Vallen en opstaan
Ook MuZero maakt gebruikt van machinaal leren. Maar in plaats van het systeem de regels te vertellen, lieten de makers MuZero gewoon lekker zijn gang gaan. Met vallen en opstaan leerde het zelf de regels – en wist het de juiste winstrategie te bepalen.
AlphaZero maakte gebruik van een volledig model van het spel: het kende het hele spelbord, alle mogelijke zetten en alle regels. MuZero kijkt daarentegen alleen naar de informatie die belangrijk is om een volgende zet te maken. Hoe goed is de huidige positie op het bord? Wat is de beste vervolgactie? En hoeveel leverde de vorige actie op? Bij elke stap voorspelt het model wat de waarde is van een actie en de nieuwe positie. Dit proces wordt constant geüpdatet met nieuwe informatie. Zo zoekt de AI stap voor stap de beste spelstrategie uit.
Ms. Pac-Man
MuZero is net zo goed in schaken, go en shogi als AlphaZero, maar hoeft dus niet voorgeprogrammeerd te worden met de spelregels. Bij deze spellen, die allemaal duidelijke regels kennen, levert dat geen duidelijk voordeel op: je kunt je AI net zo goed even de spelregels laten lezen. Maar bij complexere spelletjes is MuZero dankzij zijn nieuwe strategie in het voordeel.
Denk bijvoorbeeld aan Atari-computerspelletjes zoals Ms. Pac-Man, waarbij elke pixel van het scherm informatie geeft. Het is onmogelijk om een AI-systeem van te voren te voorzien van alle mogelijke regels, zetten en mogelijkheden. Doordat MuZero, in tegenstelling tot AlphaZero, gaandeweg de regels van het spel doorgrondt, heeft het die informatie ook niet nodig. Het systeem zit niet vast aan een vooraf bedacht model en is daardoor in staat om ook bij zulke complexere spellen een goede winstrategie te vinden.
Rommelig
Volgens de makers van DeepMind is dat niet alleen handig voor Atari-spelletjes. Ook bij toepassingen in de echte wereld is het onmogelijk om AI van te voren de regels te geven. ‘Problemen in de echte wereld zijn rommelig, complex, en moeilijk om in simpele regels te vangen’, schrijven ze in een blog op deepmind.com. Als je in de toekomst bijvoorbeeld zelfrijdende auto’s wil voorzien van AI, heb je een flexibele leerstrategie nodig waarbij het system niet alle details van te voren hoeft te weten.
De makers publiceerden hun werk afgelopen woensdag in het wetenschappelijke tijdschrift Nature.