Veel wetenschappelijke artikelen blijken niet te kloppen. Hoog tijd om daar iets aan te doen

Onderzoeksresultaten blijken vaak niet repliceerbaar. Het gekibbel over een oplossing hiervoor moet snel ophouden, voordat het vertrouwen in de wetenschap verder afbrokkelt, stelt Robert Matthews.

In tijden van alternatieve feiten en nepnieuws is het fijn om te weten dat er in ieder geval één bron is waar we altijd op kunnen vertrouwen: de wetenschap. Met strenge normen voor waarheidsvinding zou de wetenschap de feiten van de onzin kunnen scheiden.

De wetenschapper is ook maar een mens

Helaas – ook dit is nepnieuws. Al decennia maakt de wetenschap namelijk gebruik van gebrekkige methodiek om ruwe data in wetenschappelijke inzichten om te zetten. De wetenschappelijke literatuur zit hierdoor vol met bevindingen die niet veel meer zijn dan toevalstreffers. Nog schokkender is dat wetenschappers herhaaldelijk zijn gewaarschuwd voor de methodologische problemen die hun werk teisteren, maar hier veelal lak aan hebben.

Afgelopen maand organiseerde de American Statistical Association (ASA) een conferentie met als doel de wetenschappelijke gemeenschap wakker te schudden en te overtuigen dat het tijd is voor een andere aanpak. Deze poging bouwde voort op een open brief waarin de ASA haar zorgen uitte over de manier waarop standaard data-analyse technieken door wetenschappers worden gebruikt om te bepalen of resultaten significant zijn. Het op verkeerde wijze toetsen van significantie ligt volgens de ASA ten grondslag aan de replicatiecrisis waarin de wetenschap verkeert. Veel van de significante onderzoeksresultaten waar wetenschappers mee pronken, blijken niet door andere wetenschappers te kunnen worden gevonden met dezelfde onderzoeksopzet.

Toevalstreffer

De kern van de frustratie van ASA ligt in het uitrekenen van de betrouwbaarheid van wetenschappelijk verkregen data, ofwel de p-waarde. Stel dat een groep wetenschappers data heeft verzameld over de fitheid van mensen voor en na een nieuwe sportinterventie. Ze zullen met het nodige rekenwerk de p-waarde van het verschil tussen beide groepen willen uitrekenen om aan te tonen of de interventie werkt. Indien de uitkomst een p-waarde van onder de 5 procent is, zal normaliter gesteld worden dat de resultaten ‘statistisch significant’ zijn. Deze resultaten worden belangrijk genoeg geacht om gepubliceerd te worden.

Dit komt doordat in brede kringen wordt aangenomen dat de p-waarde de kans is dat de bevinding een toevalstreffer is. Wanneer een p-waarde van onder de 5 procent is gevonden denkt men vaak dat de kans 95 procent is dat het gevonden effect echt is.

Dit is echter niet wat de p-waarde betekent. Het is een statistische berekening die aangeeft hoe groot de kans is dat je behaalde resultaat door toeval komt en niet door de oorzaak die men onderzoekt. Hoe lager de p-waarde, hoe kleiner de kans dat je behaalde resultaat voortkomt uit een toevalstreffer. Dit klinkt misschien hetzelfde, maar dat is het niet. Omdat de p-waarde is gebaseerd op de aanname dat het gevonden effect een toevalstreffer is, kun je hem niet zomaar omdraaien om de kans te geven dat de assumptie van de wetenschappers waar is. Een p-waarde van 4 procent, betekent dus niet dat de hypothese van de onderzoekers voor 96 procent betrouwbaar is, maar wordt wel vaak zo geïnterpreteerd.

Blindstaren op de p-waarde

Ben je al in de war? Probeer dan dit gedachte-experiment. Je bent een dokter, met een patiënt die klaagt over terugkerende hoofdpijn. Je weet dat er een kans van 60 procent bestaat dat dit soort hoofdpijn voorkomt wanneer er sprake is van een hersentumor.

Betekent dit ook dat de patiënt met hoofdpijn 60 procent kans heeft om een tumor te hebben? Absoluut niet. Er zijn namelijk zat syndromen die hoofdpijn kunnen veroorzaken. Het is duidelijk dat je niet zomaar de kansen kan omdraaien: de kans op hoofdpijn bij een tumor is niet hetzelfde als een tumor wanneer je hoofdpijn hebt. Wetenschappers die zich blindstaren op de p-waarde begaan dus vaak een blunder en zien significante resultaten die eigenlijk niet bestaan. Symptomen en oorzaken worden door de war gehaald. De ASA kaartte vorig jaar het probleem dus terecht aan. Het zou voor iedereen beter zijn als wetenschappers meer betrouwbare technieken gebruiken om de relevantie van hun data te toetsen.

Loopgravenoorlog

Helaas bestaat er onder statistici en wetenschappers weinig consensus over een beter alternatief. Al tientallen jaren woedt een heftige loopgravenoorlog tussen statistici die denken dat de p-waarde enkel wat aanpassingen nodig heeft en degenen die een radicale hervorming nodig achten. Aangezien het geloof in de wetenschap in sommige contreien langzaamaan afbrokkelt, lijkt het tijd om de strijdbijl te begraven en pragmatisch te werk te gaan. Als dit niet gebeurt, blijven wetenschappers met gebrekkige toetsingsmethoden werken en wordt de scheidslijn tussen echt en nepnieuws steeds kleiner.

Robert Matthews is gasthoogleraar aan de wiskundefaculteit van Aston University, Engeland.

Mis niet langer het laatste wetenschapsnieuws en meld je nu gratis aan voor de nieuwsbrief van New Scientist.

Lees verder:

Plaats een reactie