Wanneer je iets typt terwijl je aan het videobellen bent, geef je misschien meer informatie prijs dan je denkt. Een computermodel kan dan namelijk aan je armbewegingen zien welke woorden je intypt.
‘Tijdens het typen maak je zichtbare schouderbewegingen die moeilijk, maar niet onmogelijk van elkaar te onderscheiden zijn’, zegt informaticus Murtuza Jadliwala van de Universiteit van Texas. ‘We dachten: als we die bewegingen wetenschappelijk kunnen modelleren, zouden we op videobeelden verschillende toetsaanslagen moeten kunnen identificeren.’
Jadliwala ontwikkelde dus met zijn collega’s een computermodel dat dit kan doen. Eerst koppelden ze de armbewegingen aan verschillende toetsaanslagen. De mogelijke teksten die dit opleverde, legden ze naast een lijst met veelgebruikte woorden. Op die manier wisten ze in 75 procent van de gevallen het getypte woord correct te identificeren. Dit experiment deden ze zowel in het lab als met beelden van echte videogesprekken.
‘Een AI-systeem moet kunnen zeggen: dat is geen goed idee’
Het is belangrijk dat we AI-systemen kunnen vertrouwen. AI-onderzoeker Pınar Yolum stelt dat betrouwbare AI-systemen bezwaar moeten kunnen maken tege ...
Hoe gaat het computermodel te werk? Eerst verwijdert het de achtergrondinformatie uit het frame van een videobeller. Vervolgens detecteert het model de buitenste randen van de schouder. Dat doet het met een beeldverwerkingstechniek genaamd optical flow. Die techniek houdt bij hoe pixels op beeld veranderen. Tot slot projecteert het computermodel de armbewegingen op een toetsenbord.
Skype versus Zoom
Het model is niet altijd even succesvol; de mate van succes hangt af van de typvaardigheden van de gebruiker. Mensen die blind typen, zijn moeilijker te bespioneren dan mensen die beide ogen op het toetsenbord gericht houden. Bij die tweede groep gebruikers wist het model 83 procent van de woorden correct te achterhalen. Verder waren mensen met lange mouwen minder makkelijk te bespioneren.
Daarnaast maakt het uit welke software je gebruikt voor het videobellen. Bij videogesprekken op Skype werden 3,4 procent meer woorden teruggehaald dan op Zoom. Volgens de onderzoekers komt dat mogelijk door de manier waarop deze programma’s videobeelden comprimeren.
Alarmerend
Alan Woodward van de Britse Universiteit van Surrey noemt de resultaten alarmerend. ‘Je hebt maar weinig tekens nodig om de gaten in woorden op te vullen’, zegt hij.
Volgens Jadliwala zijn er wel manieren om dit probleem het hoofd te bieden. Je kunt je achtergrond wazig maken, regelmatig frames in de video overslaan of je schouders en armen pixelleren. Woodward vindt echter dat je daarmee je doel voorbijschiet. ‘Het hele idee achter een videogesprek is dat je elkaar kunt zien’, zegt hij.
De onderzoeksresultaten staan op de voorpublicatiesite ArXiv.org.