Gebruikers van de gezondheidszorg-app Alan konden onlangs hun vragen laten beantwoorden door een AI. De deelnemers meldden een hoge mate van tevredenheid. Daar staat tegenover dat de AI bij één interactie een antwoord met ‘potentieel gevaarlijke onnauwkeurigheden’ ophoestte.
Een Franse zorgverzekeraar heeft een kunstmatig intelligente chatbot getest op honderden mensen. Dit was de grootste praktijktest van dit soort AI tot nog toe.
Proef op de som
Technologiebedrijven beloven al tijdenlang dat AI de werkdruk onder artsen kan verlichten door medisch advies te geven. Critici zijn echter sceptisch over de nauwkeurigheid van de antwoorden en de mogelijke risico’s die hierbij komen kijken. Tot nog toe zijn techbedrijven er niet in geslaagd om hun beloften waar te maken. Een van de prominentste AI-bedrijven in de gezondheidszorg, Babylon Health, ging vorig jaar failliet.
‘Ik probeer robots te ontwikkelen die ook echt een nieuwe stap maken’
Hoe werkt vliegen? Dat lijkt een simpele vraag, maar voor luchtvaarttechnicus en bioloog David Lentink is het een levenslange zoektocht.
Nu lijkt er een keerpunt te zijn bereikt. De grote taalmodellen die nu achter chatbots zoals ChatGPT schuilgaan, leveren nauwkeuriger medisch advies op dan oudere AI-modellen. In kleine tests boekten zulke AI’s veelbelovende resultaten. Maar er zijn nog maar weinig meetgegevens over hoe deze AI’s zouden presteren bij echte patiënten. Dat is ook lastig te testen, vanwege de risico’s en ethische valkuilen bij onjuist of schadelijk AI-advies.
De Franse zorgverzekeraar Alan brengt daar nu verandering in. Computerwetenschapper Antoine Lizée en zijn collega’s testten er hun AI-chatbot Mo in honderden echte gesprekken. Gebruikers die de bestaande online medische adviesdienst van Alan gebruikten, waarbij ze met artsen kunnen chatten, kregen een tijdlang de optie om in plaats daarvan met Mo te praten. ‘We zijn de eersten die het echte ding onder echte omstandigheden testen, om te zien hoe het zich tegenover patiënten gedraagt’, zegt Lizée.
Allegaartje
Anders dan sommige bedrijven, zoals Google, hebben Lizée en zijn team geen eigen medische chatbot gebouwd. In plaats daarvan testten ze verschillende commerciële modellen van bedrijven, zoals OpenAI en Anthropic, om te kijken of ze die voor Mo konden gebruiken. Ze evalueerden de AI-modellen aan de hand van een test, die gebaseerd was op honderden Franse medische onderzoeken, om te beoordelen welke AI het beste presteerde in specifieke scenario’s. Om de vragen van patiënten te beantwoorden, selecteert Mo vervolgens het beste AI-model voor de vraag, op basis van de sterke en zwakke punten die tijdens deze tests zijn vastgesteld.
De onderzoekers gebruikten daarnaast geanonimiseerde gesprekken die Alan-klanten hadden gevoerd met artsen. Ze legden Mo dezelfde vragen voor, en vergeleken de antwoorden van de AI met die van de artsen.
Potentieel gevaarlijk
Tijdens de proefperiode kregen klanten de optie om hun vragen door de AI te laten beantwoorden. Degenen die dit accepteerden, werden vervolgens willekeurig toegewezen aan Mo of aan een echte arts.
Om de risico’s in te perken, kon Mo niet over alle onderwerpen praten. Vragen over geestelijke gezondheid en acute noodgevallen gingen naar een menselijke arts. Ook werden alle berichten die de AI stuurde binnen 15 minuten na verzending beoordeeld door een menselijke arts.
In totaal voerde de AI 926 gesprekken. De proefpersonen die met de AI hadden gesproken, rapporteerden een iets hogere tevredenheid en hadden een grotere waardering voor de ‘duidelijkheid van de informatie’ dan degenen die met een arts hadden gesproken.
Van de 1265 berichten die Mo verstuurde, werd 95 procent positief beoordeeld door artsen. 3,6 procent werd als slecht bestempeld, en één bericht bevatte volgens de artsen ‘potentieel gevaarlijke onnauwkeurigheden’ en werd daarom verborgen voor de ontvanger. De inhoud van dit bericht wordt niet openbaar gemaakt vanwege privacyredenen, zegt Lizée.
Vertrouwen opbouwen
‘Je kunt wel zeggen dat dit slechts één geval was, maar voor die ene persoon kan het kan extreem schadelijk uitpakken’, reageert AI-ethicus Caroline Green van de Universiteit van Oxford in het Verenigd Koninkrijk. ‘Vanuit het oogpunt van veiligheid is dit nog helemaal niet af. Het zou goed zijn om te weten wat de gevaarlijke informatie was. Die transparantie is belangrijk, om vertrouwen op te bouwen en om te weten hoe mensen deze systemen gaan verbeteren.’
Rechtsgeleerde Ryan Abbott van de Universiteit van Surrey in het Verenigd Koninkrijk noemt de statistieken van patiënttevredenheid die het onderzoeksteam verzamelde nuttig, maar wijst erop dat deze alleen relevant zijn voor deze specifieke chatbot. ‘Je kunt dit moeilijk doortrekken naar medische chatbots in het algemeen’, zegt hij. ‘[Een chatbot] kan met een zeer breed scala aan zaken te maken krijgen, van iemand die een afspraak inplant tot iemand die een klinische vraag stelt of om advies vraagt over het innemen van medicijnen.’
1 op de 10.000
Lizée en zijn team zijn van plan om Mo – onder toezicht – te blijven testen onder echte mensen. Hun doel is om het percentage positief beoordeelde gesprekken op te krikken naar 99,5 procent. Het aantal foute antwoorden willen ze terugbrengen naar 1 op de 10.000.
‘We moesten de juiste gegevens zien om naar de volgende testfase te gaan, vooral op het gebied van veiligheid’, zegt Lizée. ‘We gaan door met de toepassing, maar we sturen het niet morgen zonder toezicht naar alle Franse burgers.’
Er zijn gecontroleerde, nauwkeurige tests nodig met menselijke proefpersonen in een gereguleerde onderzoekssetting voordat de AI kan worden uitgerold naar het grote publiek, zegt Green. ‘Ik ben, op basis van wat ik in dit onderzoeksartikel heb gezien, er nog niet van overtuigd dat het een goed idee is om het überhaupt uit te rollen. Ik denk dat het onveilig zou zijn. Er is een langere ontwikkelingsfase nodig.’