Bookshelf

DEFINING REPRODUCIBILITY AND REPLICABILITY

Forskellige videnskabelige discipliner og institutioner bruger ordene reproducerbarhed og replikerbarhed på inkonsekvente eller endog modstridende måder: Hvad den ene gruppe mener med det ene ord, mener den anden gruppe med det andet ord.4 Disse udtryk – og andre, som f.eks. gentagelighed – er længe blevet brugt i forbindelse med det generelle begreb, at et eksperiment eller en undersøgelse bekræfter resultaterne af et andet eksperiment eller en anden undersøgelse. Inden for dette generelle begreb er der imidlertid ikke opstået nogen terminologisk konsekvent måde at skelne på; i stedet har der floreret modstridende og inkonsekvente udtryk. Vanskelighederne ved vurderingen af reproducerbarhed og replikerbarhed kompliceres af denne mangel på standarddefinitioner for disse begreber.

I nogle områder er ét begreb blevet brugt til at dække alle relaterede begreber: f.eks. har “replikation” historisk set dækket alle problemer inden for statskundskab (King, 1995). I mange sammenhænge har begreberne reproducerbar og replikerbar forskellige betydninger, men forskellige samfund har vedtaget modsatrettede definitioner (Claerbout og Karrenbach, 1992; Peng et al., 2006; Association for Computing Machinery, 2018). Nogle har tilføjet kvalificerende termer som f.eks. metoder reproducerbarhed, resultater reproducerbarhed og inferentiel reproducerbarhed til leksikonet (Goodman et al., 2016). Der er især opstået spændinger mellem den brug, der for nylig er blevet vedtaget inden for datalogi, og den måde, som forskere i andre videnskabelige discipliner har beskrevet disse idéer i årevis (Heroux et al., 2018).

I begyndelsen af 1990’erne begyndte forskere at bruge udtrykket “reproducerbar forskning” for undersøgelser, der leverede et komplet digitalt kompendium af data og kode til reproduktion af deres analyser, især i forbindelse med behandling af optagelser af seismiske bølger (Claerbout og Karrenbach, 1992; Buckheit og Donoho, 1995). Der blev lagt vægt på at sikre, at en beregningsanalyse var gennemsigtig og dokumenteret, således at den kunne verificeres af andre forskere. Selv om dette begreb om reproducerbarhed er helt forskelligt fra situationer, hvor en forsker indsamler nye data i håb om uafhængigt at verificere tidligere resultater eller en videnskabelig konklusion, bruger nogle videnskabelige områder udtrykket reproducerbarhed til at henvise til denne praksis. Peng et al. (2006, s. 783) omtaler dette scenario som “replikerbarhed”, idet de bemærker: “Videnskabelige beviser styrkes, når vigtige resultater replikeres af flere uafhængige forskere ved hjælp af uafhængige data, analysemetoder, laboratorier og instrumenter.” På trods af bestræbelserne på at samle sig om brugen af disse udtryk, er der stadig ikke enighed på tværs af fagområder. Den deraf følgende forvirring er en hindring for at komme videre med at forbedre reproducerbarhed og replikerbarhed (Barba, 2018).

I et oversigtsdokument om brugen af begreberne reproducerbarhed og replikerbarhed skitserede Barba (2018) tre kategorier af brug, som hun karakteriserede som A, B1 og B2:

  • A: Begreberne bruges uden at skelne mellem dem.
  • B1: “Reproducerbarhed” henviser til tilfælde, hvor den oprindelige forskers data og computerkoder anvendes til at genskabe resultaterne, mens “replikerbarhed” henviser til tilfælde, hvor en forsker indsamler nye data for at nå frem til de samme videnskabelige resultater som i en tidligere undersøgelse.
  • B2: “Reproducerbarhed” henviser til uafhængige forskere, der når frem til de samme resultater ved hjælp af deres egne data og metoder, mens “replikerbarhed” henviser til et andet hold, der når frem til de samme resultater ved hjælp af den oprindelige forfatters artefakter.

B1 og B2 står i modsætning til hinanden med hensyn til, hvilket begreb der indebærer genbrug af de oprindelige forfatteres digitale artefakter fra forskningen (“forskningskompendium”), og hvilket begreb der indebærer selvstændigt skabte digitale artefakter. Barba (2018) har indsamlet data om brugen af disse udtryk på tværs af en række forskellige discipliner (se tabel 3-1).5

TABEL 3-1. Anvendelse af begreberne reproducerbarhed og replikerbarhed efter videnskabelig disciplin.

TABEL 3-1

Brug af begreberne reproducerbarhed og replikerbarhed efter videnskabelig disciplin.

Den terminologi, som Association for Computing Machinery (ACM) har vedtaget for datalogi, blev i 2016 offentliggjort som et system for badges, der er knyttet til artikler, der er udgivet af foreningen. ACM erklærede, at dets definitioner var inspireret af det metrologiske ordforråd, og det forbandt brugen af en original forfatters digitale artefakter med “replikerbarhed”, og udvikling af helt nye digitale artefakter med “reproducerbarhed”. Disse terminologiske sondringer er i modstrid med brugen inden for datalogi, hvor reproducerbarhed er forbundet med gennemsigtighed og adgang til forfatterens digitale artefakter, og også med samfundsvidenskab, økonomi, kliniske undersøgelser og andre områder, hvor replikationsundersøgelser indsamler nye data for at verificere de oprindelige resultater.

Uanset hvilke specifikke termer der anvendes, har de underliggende begreber længe spillet en væsentlig rolle i alle videnskabelige discipliner. Disse begreber er tæt forbundet med følgende generelle spørgsmål om videnskabelige resultater:

  • Er dataene og analysen opstillet med tilstrækkelig gennemsigtighed og klarhed til, at resultaterne kan kontrolleres?
  • Hvis de data og analyser, der tilbydes til støtte for resultatet, faktisk støtter dette resultat, hvis de kontrolleres?
  • Hvis dataene og analysen viser sig at støtte det oprindelige resultat, kan det rapporterede resultat så genfindes i den specifikke undersøgelsessammenhæng, der er undersøgt?
  • Til sidst: Kan det rapporterede resultat eller den konklusion, der er draget, findes igen i et bredere sæt af undersøgelseskontekster?

Computerforskere bruger generelt udtrykket reproducerbarhed til at besvare blot det første spørgsmål – det vil sige, at reproducerbar forskning er forskning, der kan kontrolleres, fordi data, kode og analysemetoder er tilgængelige for andre forskere. Udtrykket reproducerbarhed kan også bruges i forbindelse med det andet spørgsmål: forskning er reproducerbar, hvis en anden forsker rent faktisk bruger de tilgængelige data og den tilgængelige kode og opnår de samme resultater. Forskellen mellem det første og det andet spørgsmål er en anden forskers handling; det første spørgsmål henviser til tilgængeligheden af data, kode og analysemetoder, mens det andet spørgsmål henviser til den handling, der består i at genberegne resultaterne ved hjælp af de tilgængelige data, kode og analysemetoder.

For at besvare det første og det andet spørgsmål bruger en anden forsker data og kode fra den første forsker; der skabes ingen nye data eller kode af den anden forsker. Reproducerbarheden afhænger kun af, om metoderne for den beregningsmæssige analyse er blevet gennemsigtigt og præcist rapporteret, og om disse data, kode eller andet materiale er blevet anvendt til at reproducere de oprindelige resultater. For at besvare spørgsmål tre skal en forsker derimod gentage undersøgelsen, idet han skal følge de oprindelige metoder så nøje som muligt og indsamle nye data. For at besvare spørgsmål fire kan en forsker gå forskellige veje: vælge en ny analysebetingelse, gennemføre den samme undersøgelse i en ny kontekst eller gennemføre en ny undersøgelse rettet mod det samme eller et lignende forskningsspørgsmål.

Med henblik på denne rapport og med det formål at definere disse begreber på en måde, der gælder på tværs af flere videnskabelige discipliner, har udvalget valgt at skelne mellem reproducerbarhed og replikerbarhed mellem det andet og tredje spørgsmål. Således omfatter reproducerbarhed den handling, hvor en anden forsker genberegner de oprindelige resultater, og den kan opfyldes med tilgængeligheden af data, kode og metoder, der gør denne genberegning mulig. Denne definition af reproducerbarhed henviser til gennemsigtighed og reproducerbarhed af beregninger: det vil sige, at den er synonym med “computational reproducibility”, og vi bruger begreberne i denne rapport i flæng.

Når der gennemføres en ny undersøgelse og indsamles nye data, der sigter mod det samme eller et lignende videnskabeligt spørgsmål som en tidligere undersøgelse, definerer vi det som en replikation. Et replikationsforsøg kan udføres af de samme forskere i det samme laboratorium med henblik på at verificere det oprindelige resultat, eller det kan udføres af nye forskere i et nyt laboratorium eller i en ny kontekst ved hjælp af de samme eller andre metoder og analysebetingelser. Hvis denne anden undersøgelse, der tager sigte på det samme videnskabelige spørgsmål, men indsamler nye data, finder konsistente resultater eller kan drage konsistente konklusioner, er forskningen replikerbar. Hvis en anden undersøgelse undersøger et lignende videnskabeligt spørgsmål, men i andre sammenhænge eller populationer, der adskiller sig fra den oprindelige undersøgelse, og finder konsistente resultater, er forskningen “generaliserbar”.6

Sammenfattende har udvalget efter en omfattende gennemgang af de måder, hvorpå disse begreber anvendes af forskellige videnskabelige samfund, vedtaget specifikke definitioner til denne rapport.

KONKLUSION 3-1: I denne rapport er reproducerbarhed at opnå konsistente resultater ved hjælp af de samme inputdata, beregningstrin, metoder og kode samt analysebetingelser. Denne definition er synonym med “beregningsmæssig reproducerbarhed”, og begreberne anvendes i denne rapport i flæng.

Replicerbarhed er opnåelse af konsistente resultater på tværs af undersøgelser, der har til formål at besvare det samme videnskabelige spørgsmål, og som hver især har opnået deres egne data.

To undersøgelser kan anses for at have replikeret, hvis de opnår konsistente resultater i betragtning af den usikkerhed, der er indbygget i det undersøgte system. I undersøgelser, der måler en fysisk enhed (dvs. en målestok), kan resultaterne være sæt af målinger af den samme målestok, som er opnået af forskellige laboratorier. I undersøgelser, der har til formål at påvise en virkning af et tilsigtet indgreb eller en naturlig begivenhed, kan resultaterne være den type og størrelse af virkninger, der er fundet i forskellige undersøgelser, som har til formål at besvare det samme spørgsmål. Generelt gælder det, at når der opnås nye data, som udgør resultaterne af en undersøgelse, der har til formål at besvare det samme videnskabelige spørgsmål som en anden undersøgelse, udgør graden af konsistens mellem resultaterne fra de to undersøgelser graden af replikering.

To vigtige begrænsninger for replikerbarheden af videnskabelige resultater ligger i grænserne for målepræcisionen og potentialet for ændrede resultater som følge af undertiden subtile variationer i de metoder og trin, der udføres i en videnskabelig undersøgelse. Vi overvejer udtrykkeligt begge dele her, da de hver især kan have en dybtgående indflydelse på replicerbarheden af videnskabelige undersøgelser.