Het AI-bedrijf DeepMind zet kunstmatig intelligente chatbots in om wiskundige problemen op te lossen. Ze ontwikkelden daarvoor een methode die voorkómt dat het taalmodel onzin-antwoorden verzint.

Het bedrijf Google DeepMind beweert de eerste wiskundige ontdekking te hebben gedaan met behulp van een AI-chatbot. Ze bouwden een factchecker die nutteloze output van de chatbot wegfiltert, zodat alleen betrouwbare oplossingen voor wiskundige of computerproblemen overblijven.

Hallucineren

DeepMind bouwden eerder succesvolle systemen die het weer of de vorming van eiwitten voorspellen. Deze AI-modellen werden specifiek voor de bijbehorende taak gemaakt. Ze waren getraind op nauwkeurige en relevante gegevens.

Heersen zwermen killerdrones straks over het slagveld?
LEES OOK

Heersen zwermen killerdrones straks over het slagveld?

Een luchtruim gevuld door kunstmatig intelligente killerdrones, die autonoom bepalen wie blijft leven en wie zal sterven. Hoe waarschijnlijk is dat?

Grote taalmodellen, zoals GPT-4 en Google’s Gemini, zijn daarentegen getraind op enorme hoeveelheden algemene gegevens. Daardoor bezitten ze een breder scala aan vaardigheden. Deze aanpak maakt ze echter ook vatbaar voor ‘hallucinaties’, soms produceren ze met schijnbaar volle overtuiging onjuiste uitspraken.

Neem bijvoorbeeld de chatbot ChatGPT-3.5. Als je vraagt: ‘Hoe heet de kleindochter van koning Willem-Alexander?’, dan reageert de AI met: ‘Het dochtertje van zijn oudste dochter, prinses Amalia, wordt vaak aangeduid als prinses Ariane’. Dit is een gehallucineerd antwoord, want in werkelijkheid heeft Amalia geen kinderen.

Een veelgebruikte oplossing voor dit fenomeen is om een laag boven de AI toe te voegen. Die laag controleert de nauwkeurigheid van de output, voordat deze aan de gebruiker wordt doorgegeven. Dat is wel een lastige taak, gezien het brede scala aan onderwerpen waarover chatbots vragen kunnen krijgen.

Evaluator

AI-onderzoeker Alhussein Fawzi van DeepMind en zijn collega’s hebben nu een taalmodel gemaakt met de naam FunSearch. Het is gebaseerd op Google’s PaLM2-model, met daarbij een laag voor het controleren van feiten, die ze een ‘evaluator’ noemen. Dit model is specifiek gemaakt om computercode te schrijven die problemen in de wiskunde en informatica oplost. Volgens DeepMind is dat een behapbare taak, omdat deze nieuwe ideeën en oplossingen snel te controleren zijn.

De onderliggende AI kan nog steeds hallucineren en onnauwkeurige of misleidende resultaten geven. Maar de evaluator filtert foutieve antwoorden eruit en laat alleen betrouwbare en potentieel bruikbare concepten over.

‘We denken dat misschien wel 90 procent van wat de chatbot oplevert niet bruikbaar is’, zegt Fawzi. Toch zijn chatbots erg nuttig. ‘Als ik een mogelijke oplossing krijg, kan ik je heel gemakkelijk vertellen of het een juiste oplossing is. Maar zelf een oplossing bedenken is echt moeilijk’, zegt Fawzi. DeepMind beweert dat FunSearch nieuwe wetenschappelijke kennis en ideeën kan genereren, iets wat taalmodellen nog niet eerder hebben gedaan.

Wiskundige problemen

Om te beginnen krijgt FunSearch een probleem en een zeer eenvoudige oplossing als invoer. Dan genereert het een database van nieuwe oplossingen, die door de evaluator worden gecontroleerd op nauwkeurigheid. De beste van de betrouwbare oplossingen worden teruggegeven aan het taalmodel als input, met een vraag om de ideeën te verbeteren. DeepMind zegt dat het systeem miljoenen potentiële oplossingen produceert, die uiteindelijk convergeren naar een efficiënt resultaat. Dat resultaat is soms zelfs beter dan de beste bekende oplossingen.

Het model lost wiskundige problemen niet direct op. In plaats daarvan schrijft het model computerprogramma’s die de oplossingen vinden. Fawzi en zijn collega’s daagden FunSearch bijvoorbeeld uit om oplossingen te vinden voor het cap set-probleem. Het model moest patronen vinden van punten waarbij geen drie punten een rechte lijn vormen. Het probleem wordt steeds lastiger, en omvat steeds meer rekenwerk, naarmate het aantal punten toeneemt. De AI vond een oplossing voor uit 512 punten in acht dimensies, groter dan ooit tevoren bekend was.

De onderzoekers zetten FunSearch ook in voor het bin packing-probleem, waarbij het doel is om objecten van verschillende grootte efficiënt in dozen te plaatsen. FunSearch vond oplossingen die beter zijn dan de huidige algemeen gebruikte algoritmen. Dit resultaat heeft directe toepassingen voor transport- en logistieke bedrijven. Volgens DeepMind kan FunSearch leiden tot verbeteringen in veel meer wiskundige en computerproblemen.

Doorbraak

Computerwetenschapper Mark Lee van de Universiteit van Birmingham in het Verenigd Koninkrijk zegt dat de volgende doorbraken in AI niet zullen komen van het opschalen van taalmodellen, maar het toevoegen van lagen die nauwkeurigheid garanderen, zoals DeepMind heeft gedaan met FunSearch.

‘De kracht van een taalmodel is het vermogen om zich dingen voor te stellen, maar de hallucinaties zijn een probleem’, zegt Lee. ‘Dit onderzoek doorbreekt dat probleem: het houdt het systeem in toom.’

Volgens Lee zouden we AI’s niet moeten bekritiseren voor hun onnauwkeurige of nutteloze output. Het verschilt namelijk niet van de manier waarop menselijke wiskundigen en wetenschappers te werk gaan. Zij brainstormen over ideeën en testen ze. De beste ideeën volgen ze op, en de slechtste gooien ze weg.