De internationale en onafhankelijke jury, aangesteld door de Koning Boudewijnstichting, heeft het baanbrekende werk over de False Discovery Rate (FDR) gekozen als ontvanger van de prestigieuze tweejaarlijkse Rousseeuw Prijs voor Statistiek 2024. Deze prijs van een miljoen dollar viert uitzonderlijk statistisch onderzoek dat een diepgaande invloed heeft op de samenleving. De eerste editie in 2022 eerde het werk over causale inferentie (het bepalen van oorzaak en gevolg). De prijs van dit jaar richt zich op de False Discovery Rate (FDR) en de methoden om deze te beheersen. Het artikel uit 1995 van Benjamini en Hochberg introduceerde FDR, en bood een kader voor verdere uitbreiding en publicaties. De laureaten van de prijs zijn Yoav Benjamini, Daniel Yekutieli en Ruth Heller van de Universiteit van Tel Aviv. Yosef Hochberg verdient ook veel erkenning, maar is helaas niet meer in leven. Hun onderzoek heeft geleid tot een manier om het aantal schijnontdekkingen te beperken zonder het potentieel voor echte ontdekkingen te fnuiken.
Het bekroonde werk is een methode die wetenschappers helpt om echte ontdekkingen te vinden, terwijl ze het aantal schijnontdekkingen (False Discoveries) laag houdt. Wie heeft er al niet eens een bericht gelezen over een nieuwe wetenschappelijke ontdekking, om er later niets meer over te horen? Meestal is dat omdat latere experimenten het effect niet konden reproduceren. Dit wordt de replicatiecrisis van de wetenschap genoemd. Een belangrijke oorzaak is dat de oorspronkelijke onderzoekers ontdekkingen hadden geclaimd op basis van het bekijken van erg veel resultaten. Wanneer er bijvoorbeeld gezocht wordt naar een genetische marker, dat wil zeggen, een gen dat samenhangt met een bepaalde ziekte, worden er al gauw meer dan 20.000 genen bekeken. Maar dan kan het gebeuren dat een ogenschijnlijk verband enkel aan het toeval te wijten is. Men had dus een methode nodig om het aantal van die schijnontdekkingen te beperken.
Wanneer je veel potentiële resultaten bekijkt, heb je meer kans op schijnontdekkingen. Een eerste aanpak was om strenger te zijn voor elk individueel gen, maar dan werd er nog maar heel weinig ontdekt. Wetenschappers stonden toen vaak voor twee onaangename keuzes: ofwel geen enkele ontdekking rapporteren, ofwel wetenschappelijke claims publiceren die op losse schroeven staan.
Op zoek naar een oplossing, realiseerden Benjamini en Hochberg zich dat de verhouding tussen het aantal schijnontdekkingen en het totaal aantal ontdekkingen als criterium kon gebruikt worden. Als een studie 60 resultaten vindt en daaronder zijn er 3 schijnontdekkingen dan is dat niet zo erg, want dan is de verhouding slechts 5%. Maar 60 resultaten rapporteren waarvan er 40 enkel schijn zijn, is niet aanvaardbaar. Benjamini en Hochberg publiceerden in 1995 een wiskundige formulering van het False Discovery Rate (FDR) criterium, als de verwachte verhouding tussen het aantal schijnontdekkingen en het totaal aantal ontdekkingen. Zij stelden voor om het aantal ontdekkingen te maximaliseren onder de voorwaarde dat de FDR onder een bepaalde grenswaarde blijft. Op het eerste gezicht lijkt dat onmogelijk omdat we van tevoren niet weten hoeveel schijnontdekkingen er zijn, maar zij vonden toch een manier om dit te doen. In de Benjamini-Hochberg (BH) procedure past de drempel voor een ontdekking zich automatisch aan de informatie in de data aan. Het hangt dus van de data zelf af, of de uiteindelijke drempel eerder hoog of laag uitdraait. Het artikel van Benjamini en Hochberg ondervond veel weerstand omdat het zo sterk verschilde van eerdere methodes, waardoor er vijf jaar verstreken en bij drie tijdschriften aangeklopt werd, vooraleer het uiteindelijk verscheen in 1995. Het artikel van Benjamini en Hochberg werd tot op heden meer dan 100.000 keer geciteerd, een recordaantal.
Het werk rond de FDR werd voortgezet door Benjamini met de beide andere laureaten, Yekutieli en Heller. Samen bereikten zij theoretische resultaten over het gedrag van de BH-procedure, pasten het FDR-criterium toe op nieuwe uitdagingen zoals beeldanalyse, en stelden nieuwe technieken voor om de reproduceerbaarheid van wetenschappelijke resultaten in te schatten.
In het begin van de 21ste eeuw onderging het wetenschappelijk onderzoek een industriële revolutie. Experimenten in genomics, proteomica, en onderzoek van het brein worden nu uitgevoerd met machines die veel output opleveren. Die output wordt dan automatisch verwerkt, wat leidt tot vele potentiële ontdekkingen. Nu krachtige computers en grote databases beschikbaar zijn, wordt de FDR ook meer en meer in andere wetenschapsgebieden gebruikt zoals landbouw, sterrenkunde, gedragswetenschappen of economie. De FDR-procedure heeft een brede ingang gevonden en het belang van FDR-onderzoek neemt toe samen met de complexiteit van de gestelde wetenschappelijke vragen.
De FDR-procedure is erg relevant in verschillende takken van de statistiek en andere wetenschapsgebieden, en vele statistici wereldwijd doen er onderzoek naar. De drie laureaten hebben dit werk voortgezet, zowel samen, apart, als met anderen, om de wetenschappelijke gemeenschap te helpen betrouwbare informatie te halen uit complexe data. Meer informatie over deze prijs is beschikbaar op de website www.rousseeuwprize.org.