DEFINING REPRODUCIBILITY AND REPLICABILITY
Verschillende wetenschappelijke disciplines en instellingen gebruiken de woorden reproduceerbaarheid en repliceerbaarheid op inconsistente of zelfs tegenstrijdige manieren: Wat de ene groep onder het ene woord verstaat, verstaat de andere groep onder het andere woord.4 Deze en andere termen, zoals herhaalbaarheid, worden al lang gebruikt in verband met het algemene concept dat een experiment of studie de resultaten van een ander moet bevestigen. Binnen dit algemene concept is echter geen terminologisch consistente manier ontstaan om onderscheid te maken; in plaats daarvan hebben tegenstrijdige en inconsistente termen gefloreerd. De moeilijkheden bij het beoordelen van reproduceerbaarheid en repliceerbaarheid worden bemoeilijkt door deze afwezigheid van standaarddefinities voor deze termen.
In sommige gebieden is één term gebruikt om alle verwante concepten te omvatten: zo omvatte “replicatie” historisch gezien alle zorgen in de politieke wetenschappen (King, 1995). In veel omgevingen hebben de termen reproduceerbaar en repliceerbaar verschillende betekenissen, maar verschillende gemeenschappen hebben tegengestelde definities aangenomen (Claerbout en Karrenbach, 1992; Peng et al., 2006; Association for Computing Machinery, 2018). Sommigen hebben kwalificerende termen, zoals methodenreproduceerbaarheid, resultatenreproduceerbaarheid en inferentiële reproduceerbaarheid aan het lexicon toegevoegd (Goodman et al., 2016). Er is met name spanning ontstaan tussen het gebruik dat recent is aangenomen in de informatica en de manier waarop onderzoekers in andere wetenschappelijke disciplines deze ideeën al jaren beschrijven (Heroux et al., 2018).
In het begin van de jaren negentig begonnen onderzoekers de term “reproduceerbaar onderzoek” te gebruiken voor studies die een compleet digitaal compendium van gegevens en code leverden om hun analyses te reproduceren, met name bij de verwerking van seismische golfopnamen (Claerbout en Karrenbach, 1992; Buckheit en Donoho, 1995). De nadruk lag op het verzekeren dat een computationele analyse transparant en gedocumenteerd was, zodat zij door andere onderzoekers kon worden geverifieerd. Hoewel dit begrip reproduceerbaarheid sterk verschilt van situaties waarin een onderzoeker nieuwe gegevens verzamelt in de hoop eerdere resultaten of een wetenschappelijke gevolgtrekking onafhankelijk te kunnen verifiëren, gebruiken sommige wetenschappelijke gebieden de term reproduceerbaarheid om naar deze praktijk te verwijzen. Peng et al. (2006, p. 783) verwijzen naar dit scenario als “repliceerbaarheid”, waarbij zij opmerken: “Wetenschappelijk bewijs wordt versterkt wanneer belangrijke resultaten worden gerepliceerd door meerdere onafhankelijke onderzoekers die onafhankelijke gegevens, analytische methoden, laboratoria en instrumenten gebruiken.” Ondanks pogingen om tot een consensus te komen over het gebruik van deze termen, blijft er een gebrek aan consensus bestaan tussen de verschillende disciplines. De daaruit voortvloeiende verwarring is een obstakel bij het boeken van vooruitgang om reproduceerbaarheid en repliceerbaarheid te verbeteren (Barba, 2018).
In een overzichtsartikel over het gebruik van de termen reproduceerbaarheid en repliceerbaarheid, schetste Barba (2018) drie categorieën van gebruik, die ze karakteriseerde als A, B1, en B2:
A: De termen worden gebruikt zonder onderscheid tussen hen. B1: “Reproduceerbaarheid” verwijst naar gevallen waarin de gegevens en computercodes van de oorspronkelijke onderzoeker worden gebruikt om de resultaten te regenereren, terwijl “repliceerbaarheid” verwijst naar gevallen waarin een onderzoeker nieuwe gegevens verzamelt om tot dezelfde wetenschappelijke bevindingen te komen als een eerdere studie. B2: “Reproduceerbaarheid” verwijst naar onafhankelijke onderzoekers die met hun eigen gegevens en methoden tot dezelfde resultaten komen, terwijl “repliceerbaarheid” verwijst naar een ander team dat tot dezelfde resultaten komt met gebruikmaking van de artefacten van de oorspronkelijke auteur.
B1 en B2 staan tegenover elkaar met betrekking tot de vraag bij welke term de digitale artefacten van het onderzoek van de oorspronkelijke auteurs worden hergebruikt (“onderzoekscompendium”) en bij welke term het gaat om onafhankelijk gecreëerde digitale artefacten. Barba (2018) verzamelde gegevens over het gebruik van deze termen in een verscheidenheid aan disciplines (zie tabel 3-1).5
TABLE 3-1
Gebruik van de termen Reproduceerbaarheid en Repliceerbaarheid door Wetenschappelijke Discipline.
De door de Association for Computing Machinery (ACM) vastgestelde terminologie voor computerwetenschappen werd in 2016 gepubliceerd als een systeem voor badges die aan door de vereniging gepubliceerde artikelen worden gehecht. De ACM verklaarde dat haar definities waren geïnspireerd door de metrologievocabulaire, en het associeerde het gebruik van de digitale artefacten van een originele auteur met “repliceerbaarheid”, en het ontwikkelen van volledig nieuwe digitale artefacten met “reproduceerbaarheid”. Dit terminologische onderscheid is in tegenspraak met het gebruik in de computerwetenschap, waar reproduceerbaarheid wordt geassocieerd met transparantie en toegang tot de digitale artefacten van de auteur, en ook met de sociale wetenschappen, de economie, klinische studies en andere domeinen, waar replicatiestudies nieuwe gegevens verzamelen om de oorspronkelijke bevindingen te verifiëren.
Ongeacht de specifieke termen die worden gebruikt, spelen de onderliggende concepten al lang een essentiële rol in alle wetenschappelijke disciplines. Deze concepten zijn nauw verbonden met de volgende algemene vragen over wetenschappelijke resultaten:
-
Zijn de gegevens en de analyse zodanig transparant en duidelijk dat de resultaten kunnen worden gecontroleerd?
-
Indien gecontroleerd, ondersteunen de gegevens en de analyse die ter ondersteuning van het resultaat worden aangeboden dat resultaat ook daadwerkelijk?
-
Indien wordt aangetoond dat de gegevens en de analyse het oorspronkelijke resultaat ondersteunen, kan het gerapporteerde resultaat dan opnieuw worden gevonden in de specifieke onderzochte studiecontext?
-
Kan ten slotte het gerapporteerde resultaat of de getrokken gevolgtrekking worden teruggevonden in een bredere reeks studiecontexten?
Computationele wetenschappers gebruiken de term reproduceerbaarheid doorgaans alleen om de eerste vraag te beantwoorden – reproduceerbaar onderzoek is onderzoek dat kan worden gecontroleerd omdat de gegevens, de code en de analysemethoden beschikbaar zijn voor andere onderzoekers. De term reproduceerbaarheid kan ook worden gebruikt in de context van de tweede vraag: onderzoek is reproduceerbaar als een andere onderzoeker de beschikbare gegevens en code daadwerkelijk gebruikt en dezelfde resultaten verkrijgt. Het verschil tussen de eerste en de tweede vraag is er een van actie door een andere onderzoeker; de eerste verwijst naar de beschikbaarheid van de gegevens, code, en analysemethoden, terwijl de tweede verwijst naar de handeling van het opnieuw berekenen van de resultaten met behulp van de beschikbare gegevens, code, en analysemethoden.
Om de eerste en de tweede vraag te beantwoorden, gebruikt een tweede onderzoeker gegevens en code van de eerste; er worden geen nieuwe gegevens of code gecreëerd door de tweede onderzoeker. Reproduceerbaarheid hangt alleen af van de vraag of de methoden van de computationele analyse transparant en nauwkeurig zijn gerapporteerd en of die gegevens, code, of andere materialen zijn gebruikt om de oorspronkelijke resultaten te reproduceren. Om vraag drie te beantwoorden moet een onderzoeker de studie daarentegen overdoen, waarbij hij de oorspronkelijke methoden zo nauwkeurig mogelijk moet volgen en nieuwe gegevens moet verzamelen. Om vraag vier te beantwoorden, kan een onderzoeker verschillende wegen bewandelen: een nieuwe analyseconditie kiezen, dezelfde studie in een nieuwe context uitvoeren, of een nieuwe studie uitvoeren die op dezelfde of een soortgelijke onderzoeksvraag is gericht.
Voor de doeleinden van dit rapport en met het doel deze termen te definiëren op een manier die in meerdere wetenschappelijke disciplines toepasbaar is, heeft de commissie ervoor gekozen het onderscheid tussen reproduceerbaarheid en repliceerbaarheid te maken tussen de tweede en de derde vraag. Aldus omvat reproduceerbaarheid de handeling van een tweede onderzoeker die de oorspronkelijke resultaten opnieuw berekent, en kan worden voldaan met de beschikbaarheid van gegevens, code en methoden die die herberekening mogelijk maakt. Deze definitie van reproduceerbaarheid verwijst naar de transparantie en reproduceerbaarheid van berekeningen: dat wil zeggen, het is synoniem met “computationele reproduceerbaarheid,” en we gebruiken de termen door elkaar in dit rapport.
Wanneer een nieuwe studie wordt uitgevoerd en nieuwe gegevens worden verzameld, gericht op dezelfde of een vergelijkbare wetenschappelijke vraag als een eerdere, definiëren we dit als een replicatie. Een replicatiepoging kan worden uitgevoerd door dezelfde onderzoekers in hetzelfde laboratorium om het oorspronkelijke resultaat te verifiëren, of zij kan worden uitgevoerd door nieuwe onderzoekers in een nieuw laboratorium of een nieuwe context, met gebruikmaking van dezelfde of andere analysemethoden en -voorwaarden. Als dit tweede onderzoek, dat op dezelfde wetenschappelijke vraag is gericht maar nieuwe gegevens verzamelt, consistente resultaten oplevert of consistente conclusies kan trekken, is het onderzoek repliceerbaar. Als een tweede studie een soortgelijke wetenschappelijke vraag onderzoekt, maar in andere contexten of populaties die verschillen van de oorspronkelijke studie, en consistente resultaten vindt, is het onderzoek “generaliseerbaar. “6
Samenvattend heeft de commissie, na uitvoerig onderzoek van de manieren waarop deze termen door verschillende wetenschappelijke gemeenschappen worden gebruikt, specifieke definities voor dit rapport aangenomen.
CONCLUSIE 3-1: Voor dit rapport is reproduceerbaarheid het verkrijgen van consistente resultaten met gebruikmaking van dezelfde invoergegevens; computationele stappen, methoden, en code; en analyseomstandigheden. Deze definitie is synoniem met “computationele reproduceerbaarheid”, en de termen worden in dit verslag door elkaar gebruikt.
Repliceerbaarheid is het verkrijgen van consistente resultaten in studies die gericht zijn op het beantwoorden van dezelfde wetenschappelijke vraag, waarbij elke studie haar eigen gegevens heeft verkregen.
Twee studies kunnen worden geacht te hebben gerepliceerd indien zij consistente resultaten verkrijgen gezien de mate van onzekerheid die inherent is aan het bestudeerde systeem. In studies die een fysische entiteit (d.w.z. een te meten grootheid) meten, kunnen de resultaten de reeksen metingen van dezelfde te meten grootheid zijn die door verschillende laboratoria zijn verkregen. In studies die gericht zijn op het opsporen van een effect van een opzettelijke interventie of een natuurlijke gebeurtenis, kunnen de resultaten het type en de omvang zijn van de effecten die zijn gevonden in verschillende studies die gericht zijn op het beantwoorden van dezelfde vraag. In het algemeen geldt dat wanneer nieuwe gegevens worden verkregen die de resultaten vormen van een studie gericht op het beantwoorden van dezelfde wetenschappelijke vraag als een andere studie, de mate van consistentie van de resultaten van de twee studies hun replicatiegraad vormt.
Twee belangrijke beperkingen voor de repliceerbaarheid van wetenschappelijke resultaten berusten op grenzen aan de precisie van metingen en de mogelijkheid van veranderde resultaten als gevolg van soms subtiele variatie in de methoden en stappen die in een wetenschappelijke studie worden uitgevoerd. We besteden hier uitdrukkelijk aandacht aan beide, omdat ze elk een diepgaande invloed kunnen hebben op de repliceerbaarheid van wetenschappelijke studies.