Het is wetenschappers gelukt om een ernstig verlamde vrouw na achttien jaar weer te laten praten. Ze maakten een digitale versie die zegt wat de vrouw denkt op basis van haar hersengolven, vertaald door een kunstmatige intelligentie (AI).
Amerikaanse onderzoekers hebben een brein-computerinterface ontwikkeld waarmee het is gelukt om een vrouw die door een beroerte verlamd was geraakt, weer te laten spreken. Ze plaatsten elektroden in het brein van de vrouw waarna ze, samen met de vrouw, de AI-algoritmen wekenlang trainden. Het resultaat is een digitale avatar die spreekt, beweegt en kijkt zoals de vrouw zelf deed vóór haar beroerte. Het onderzoek is gepubliceerd in Nature.
Spraakkanaal
De onderzoekers van de Universiteit van Californië in San Francisco (UCSF) implanteerden 253 elektroden in het brein van de vrouw. Edward Chang, hoofd neurochirurgie van UCSF, plaatste de elektroden in hersengebieden die verantwoordelijk zijn voor de aansturing van het spraakkanaal. Die hersengebieden sturen onder andere de spieren in tong, kaak, strottenhoofd en gezicht aan.
‘Er komt een moment dat we een grieppandemie niet kunnen voorkomen’
Ron Fouchier staat aan de frontlinie in de strijd tegen de griep. Met nieuwe vaccins wil hij ons beschermen tegen toekomstige pandemieën.
Chang gebruikte dus niet de hersengebieden die belangrijk zijn voor typen of schrijven, zoals onderzoekers tot nu toe doorgaans deden wanneer ze mensen via een computer wilden laten communiceren. Na plaatsing van de elektroden in de hersenen van de vrouw, sloot Chang de elektroden aan op een reeks computers.
Eenmaal aangesloten, moest de vrouw wekenlang de AI-algoritmen trainen zodat die haar unieke hersensignalen voor spraak en gezichtsuitdrukkingen leerden herkennen. De onderzoekers combineerden deze algoritmen vervolgens met software die spierbewegingen van haar gezicht animeert. Dit resulteerde in een avatar die zegt wat de vrouw denkt, met zelfs de juiste gezichtsuitdrukking erbij. De stem van het digitale evenbeeld is geïnspireerd op de echte stem van de vrouw. Hiervoor gebruikten de onderzoekers opnames van haar bruiloft.
Sneller
Dit is de eerste keer dat hersensignalen zijn vertaald naar spraak en gezichtsuitdrukkingen. Tot nu toe lukte het onderzoekers alleen om hersensignalen om te zetten naar tekst. Ook omzetting naar tekst lukt met het systeem van Chang, met een snelheid van bijna 80 woorden per minuut.
Volgens neurowetenschapper Julia Berezutskaya van UMC Utrecht, die niet betrokken was bij het onderzoek, is dit een verviervoudiging ten opzichte van eerdere technologie. De hoge snelheid bereikte Chang onder andere doordat de AI niet hele woorden herkent, maar woorden ontcijfert met behulp van spraakeenheden, zogenoemde fonemen. Een gesproken woord ontstaat door meerdere fonemen achter elkaar te plakken. Zo bestaat het woord ‘hallo’ uit de vier fonemen: ‘h’, ‘α’, ‘l’ en ‘o’. Op deze manier hoeft de computer gemiddeld slechts veertig fonemen te leren om alle woorden van een taal te kunnen ontcijferen.
De vrouw moest keer op keer bepaalde zinnen proberen te zeggen, totdat de computer hersenactiviteitspatronen herkende die verband hielden met de bijbehorende spraakgeluiden. De fonemen in combinatie met de hersensignalen verbeterden de nauwkeurigheid en snelheid van het systeem ten opzichte van eerdere systemen.
Van lab naar thuis
Berezutskaya spreekt van een mijlpaal op het gebied van brein-computerinterfaces. ‘Ondanks dat de snelheid van natuurlijke spraak, zo’n 150 woorden per minuut, nog ver weg is, is dit een belangrijke vooruitgang ten opzichte van de bestaande technieken. Het model van Chang vertaalt hersensignalen tegelijkertijd naar tekst, spraak én gezichtsuitdrukkingen. Dat is echt uniek.’
Toch zal er nog veel moeten gebeuren voordat mensen de techniek in huiselijke setting kunnen gebruiken. ‘De vrouw gebruikt het systeem nu slechts een aantal keer per week. Namelijk als ze in het lab is, en de onderzoekers haar aansluiten op de geavanceerde modellen. Het is zeker nog niet klaar voor thuisgebruik’, zegt Berezutskaya.
Autocorrect
Tot slot wijst Berezutskaya nog op een andere kwestie. De algoritmen in het taalmodel maken gebruik van een soort autocorrect. Met alleen hersensignalen lukt het vooralsnog niet om vloeiende zinnen te vormen. Daarom werken de modellen ook met statistieken die aangeven welke woorden vaak na elkaar komen in een zin.
Helaas vullen de taalmodellen soms te veel in. En laat dat nou net voor deze doelgroep een groot probleem zijn. ‘Als je telefoon een woord ongewenst aanpast, raak je geïrriteerd en verander je het terug. Maar mensen die verlamd zijn, hebben geen enkele manier om het te corrigeren’, aldus Berezutskaya.