Je kunt kunstmatige intelligentie trainen om bijvoorbeeld gezichten te herkennen – maar voordat dat lukt, moet de KI eerst miljoenen oefenstappen zetten. Een nieuwe manier om KI te trainen bespaart tijd, energie en computerkracht.

Kunstmatige intelligentie (KI) wordt steeds beter in het uitvoeren van complexe taken, maar om KI te trainen is wel een enorme hoeveelheid rekenkracht nodig. Een efficiëntere techniek zou benodigde tijd, energie en vereiste computerkracht kunnen halveren.

Kunstmatige intelligentie maakt vaak gebruik van een methode die deep learning heet. Daarbij bestaat de KI uit een netwerk van kunstmatige ‘zenuwcellen’. Deze zijn met elkaar verbonden door computercode, die input opnemen, er een bepaald gewicht aan toekennen, en dan weer een veranderde output doorgeven. Op die manier lijkt het netwerk op een ruwe versie van ons brein, waarbij zenuwcellen met elkaar in verbinding staan.

‘Einstein liep als theoreticus vast op de nieuwe bevindingen’
LEES OOK

‘Einstein liep als theoreticus vast op de nieuwe bevindingen’

Toen de Nederlandse natuurkundige Heike Kamerlingh Onnes iets geks ontdekte over supergeleiding, was dit onder veel fysici het gesprek van de dag. Maa ...

Door steeds verschillende gewichten toe te kennen aan de input, kan het netwerk langzaam maar zeker een bepaalde taak leren, zoals het herkennen van gezichten of het digitaliseren van handgeschreven teksten. Voordat dat lukt, moet het netwerk wel duizenden tot miljoenen keren de toegekende gewichten veranderen.

Heen en weer

Om een model te trainen, sturen onderzoekers data het netwerk in, waarna ze de kwaliteit van de output beoordelen. Vervolgens berekenen ze een ‘gradiënt’: een waarde die voorschrijft hoe de gewichten moeten veranderen om de output te verbeteren. Tijdens dit proces beweegt data voortdurend heen en weer door het netwerk, waarbij langzaam de gradiënt tot stand komt.

Atılım Güneş Baydin, KI-onderzoeker aan de Universiteit van Oxford, heeft met collega’s dat proces nu versimpeld. In plaats van dat het proces in twee stappen moet verlopen – waarbij de data heen en weer beweegt – kan het nu in één stap. Hierbij komt de gradiënt in de eerste stap al zo nauwkeurig tot stand, dat een tweede berekening niet meer nodig is.

In theorie zou dit de ontwikkelingstijd van KI kunnen halveren. Het team vergeleek hun nieuwe KI-model met een ‘ouderwets’ model, en zag dat ze hun KI zijn taken even goed volbracht.

Wiskundige truc

Het berekenen van de gradiënt in één stap is een ‘simpele wiskundige truc’, zegt Andrew Corbett. Hij is informaticus aan de Universiteit van Exeter. Mogelijk kan die simpele truc een van de grootste problemen van KI-onderzoekers oplossen: de almaar stijgende benodigde rekenkracht.

Volgens Corbett kan dit een goedkopere manier opleveren om KI te trainen. ‘Het is zéér belangrijk om het probleem van [gebrek aan rekenkracht] op te lossen, want dat is de bottleneck van KI-algoritmes.’

Supercomputers

Moderne KI-systemen gebruiken miljarden gegevens. Het kost weken tot maanden om de nodige gigantische supercomputers te trainen.

Een van de grootste neurale netwerken in gebruik is het Megatron-Turing Natural Language Generation-model, dat 530 miljard gegevens bevat. Het is getraind met de Selene-supercomputer van Nvidia, dat bestaat uit 560 krachtige servers en 4480 grafische kaarten. Elk van die kaarten kost duizenden euro’s. Ondanks de gigantische rekenkracht van de machine kost het meer dan een maand om dit model te trainen.

Halvering

In het beste scenario is nu rekenkracht gehalveerd, maar dat is verre van zeker, zegt Güneş Baydin. Hoe efficiënt de methode precies is, zal pas blijken wanneer andere onderzoekers het gebruiken bij allerlei verschillende KI-taken. Voor sommige toepassingen werkt het mogelijk beter dan andere.

‘Je kan een enkele optimalisatieberekening sneller uitvoeren met dit algoritme, maar dat betekent niet per se dat het op grote schaal ook twee keer sneller werkt. Er spelen daarbij meer factoren mee’, zegt hij. ‘In sommige gevallen werkt het mogelijk slechter dan de oude methode, en heeft het juist meer berekeningen nodig om dezelfde trainingskwaliteit te halen. En als dat gebeurt, kan de nieuwe methode wellicht niet op tegen de oude.’