Op mijn rubriek ‘Het getal’ in het juni-nummer kwam een ingezonden brief van Bart van Wees uit Groningen. De rubriek ging over het getal 0,05. Dit is de p-waarde die meestal als grens aangehouden wordt tussen een statistisch wel of niet significant resultaat bij medische tests en bij veel sociaal-wetenschappelijk onderzoek. Als de berekende p-waarde hoger uitvalt dan 0,05, komt het er op neer dat het onderzoek de prullenbak in kan omdat het ‘niets zegt’.
Maar wat is de precieze betekenis van die p-waarde?
Eerst de brief van Van Wees:
Statistische valkuil
Hoe verradelijk de interpretatie van statistiek kan zijn blijkt maar weer eens uit het artikel Significant < 0,05 uit het juninummer. Hierin wordt de p-waarde beschreven als de kans dat het gevonden resultaat van een experiment/onderzoek toeval is, dat wil zeggen door toeval is onstaan. Dat is onjuist. De p-waarde geeft de kans aan dat het resultaat verkregen zou worden, als er slechts sprake is van toeval. En dat is heel wat anders. Het gelijkstellen van de kans op de verkregen uitkomst als er sprake is van (slechts) toeval en de kans op toeval gegeven de uitkomst van het experiment/onderzoek staat bekend als de Prosecutor’s Fallacy, omdat deze fout ten onrechte mensen achter de tralies heeft doen belanden. De betekenis van een onderzoek met een bepaalde p-waarde dient derhalve altijd gezien te worden in relatie tot de a priori waarschijnlijkheid dat het gezochte effect/werking etc. er zou kunnen zijn. Met andere woorden, is de geschatte a priori waarschijnlijkheid kleiner dan 0.05 dan zal het hanteren van een p-waarde van 0.05 in de meeste gevallen leiden tot de onterechte conclusie dat er werkelijk iets aan de hand is. Als extreem voorbeeld hiervan: Gooit men met een munt die absoluut zuiver is tien keer achter elkaar munt, dan is de kans dat dit op toeval berust niet 1/1024 maar 1.
Bart van Wees, Groningen
Deze brief komt ook in het septembernummer van NWT-magazine te staan, maar daar kan ik er geen naschrift van 500 woorden achter zetten, vandaar deze blog.
‘Er komt een moment dat we een grieppandemie niet kunnen voorkomen’
Ron Fouchier staat aan de frontlinie in de strijd tegen de griep. Met nieuwe vaccins wil hij ons beschermen tegen toekomstige pandemieën.
Alledaags taalgebruik is inderdaad zo vaag, dat je al gauw in een statistische valkuil loopt.
Maar in het geval van het voorbeeld dat ik in ‘Het getal’ noemde, het testen van een nieuw middel tegen hoofdpijn, vond ik het heel moeilijk om te begrijpen wat het verschil is waar Van Wees op wijst.
Ik heb er een half weekend over nagedacht, snap nu wat Van Wees bedoelt, maar blijf wel met een prangende vraag zitten. Hieronder volgt een vrij technisch verhaal, maar soit, dit is immers geen shownieuwsblog.
De p-waarde geeft:
I)de kans dat dit resultaat ontstaat, gegeven dat er slechts sprake was van toeval
maar niet:
II)de kans dat dit resultaat door toeval is ontstaan
Van Wees noemt ter illustratie het voorbeeld van tien keer achter elkaar ‘munt’ gooien, met een valse, danwel een zuivere munt. Neem voor de eenvoud aan, dat een valse munt zo vals is, dat je daar alleen maar ‘munt’ mee gooit.
Een zuivere munt komt dan overeen met een hoofdpijnmiddel dat in feite niets doet, een valse munt met een middel dat altijd werkt tegen hoofdpijn. Het toedienen van het middel aan één proefpersoon komt overeen met één worp van de munt. De medische test omvat in dit geval dus het toedienen van het middel aan tien hoofdpijnpatïenten, die daarna wel of niet nog hoofdpijn hebben.
We kunnen I) dan herformuleren als:
Ia)Gesteld dat de munt zuiver is, hoe groot is de kans op ‘tien keer munt’?
en dit komt overeen met:
Ib)Gesteld dat het middel niets doet, hoe groot is de kans op deze testuitslag?
II) kunnen we herformuleren als:
IIa)Gegeven de worp ‘tien keer munt’, hoe groot is de kans dat de munt zuiver is?
IIb)Gegeven deze testuitslag, hoe groot is dan de kans dat het middel niets doet?
We kunnen bij deze test a priori vier mogelijkheden onderscheiden. De munt is namelijk wel of niet vals, en als mogelijke testresultaten onderscheiden we ‘tien keer munt’ en ‘andere worp’.
Volgens Van Wees moet je vooraf een schatting doen over de a priori waarschijnlijkheid dat een munt vals is. Laten we aannemen dat 1 op de 10.000 munten vals is, dus kans op een valse munt is 0,0001. De kans dat een zuivere munt tien keer ‘munt’ gooit is 1/2^10=1/1024.
We kunnen nu de kansen voor allevier de mogelijkheden uitrekenen:
K(10xmunt/zuiver) = 1/1024 x 0,9999
K(andere worp/zuiver) = 1023/1024 x 0,9999
K(10xmunt/vals)= 1 x 0,0001
K(andere worp/vals) = 0
We zien nu, dat vraag IIa), ‘Gegeven de worp ‘tien keer munt’, hoe groot is de kans dat de munt zuiver is?’ naar iets heel anders vraagt dan naar de p-waarde.
De kans op ‘tien keer munt’ met een zuivere munt is 1/1024 x 0,9999 = 0,00097…,
de kans op ‘tien keer munt’ terwijl de munt vals is, is 0,0001.
Stel je voor dat de test heel vaak herhaald wordt. Van alle gevallen dat de test als uitkomst ‘tien keer munt’ heeft, is de oorzaak in 0,00097/(0,00097+0,0001) x 100% = 91% van de gevallen een zuivere munt.
In 0,0001/(0,00097+0,0001) x 100% = 9% van alle gevallen is de oorzaak een valse munt.
Terugvertaald naar de test met het hoofdpijnmiddel: Gegeven de uitkomst dat alle tien patiënten van hun hoofdpijn af zijn, hoe groot is de kans dat dit middel in feite niets doet? 91%! Zo bekeken, zegt de test dus vrijwel niets over de werkzaamheid van het middel, terwijl de p-waarde toch ver onder 0,05 ligt, namelijk op 1/1024= 0,00097.
De Prosecutors Fallacy is de foutieve redenatie: de kans, dat het resultaat ‘tien keer munt’ door toeval tot stand komt is 1/1024, dus als ‘tien keer munt’ optreedt, is de kans 1023/1024 (99,9%) dat hier iets raars aan de hand is.
Tot zover meen ik het allemaal begrepen te hebben. Maar het zwakke punt is natuurlijk de a priori schatting van de kans op een valse munt. Als je die heel hoog schat (bijvoorbeeld 50%), veranderen de overige kansen drastisch:
K(10xmunt/zuiver) = 1/1024 x 0,5 = 0,00049
K(andere worp/zuiver) = 1023/1024 x 0,5 = 0,49951
K(10xmunt/vals)= 1 x 0,5 =0,5
K(andere worp/vals) = 0
Van alle gevallen dat de test als uitkomst ‘tien keer munt’ heeft, is de oorzaak nu in 0,00049/(0,00049+0,5) x 100% = 0,09 % van de gevallen een zuivere munt.
In 0,5/(0,00049 + 0,5) x 100% = 99,9 % van alle gevallen is de oorzaak een valse munt.
Weer terugvertaald naar het hoofdpijnmiddel:
Gegeven de uitkomst dat alle tien patiënten van hun hoofdpijn af zijn, hoe groot is de kans dat dit middel in feite niets doet? Slechts 0,09 %. De kans dat het middel werkzaam is tegen hoofdpijn is nu 99,9%, nog steeds bij dezelfde p-waarde 1/1024.
Dit is toch wel een heel raar principe: dat je de bewijskracht van een medische test kunt opkrikken door de kans dat het middel werkt vooraf lekker hoog in te schatten. Immers, als het een echt nieuw middel betreft, kun je over de kans dat het bij mensen werkt nauwelijks iets zinnigs zeggen. Ik ben in al die wetenschappelijke artikelen over medische trials die ik gelezen heb, ook nog nooit een schatting vooraf van de werkzaamheid van het middel of de therapie tegengekomen.
Statistiek, het blijft moeilijk en verwarrend.