Bookshelf

DEFINING REPRODUCIBILITY AND REPLICABILITY

Olika vetenskapliga discipliner och institutioner använder orden reproducerbarhet och replikerbarhet på inkonsekventa eller till och med motsägelsefulla sätt: Dessa termer – och andra, t.ex. repeterbarhet – har länge använts i samband med det allmänna begreppet att ett experiment eller en studie bekräftar resultaten av ett annat. Inom detta allmänna begrepp har det dock inte uppstått något terminologiskt konsekvent sätt att göra distinktioner; i stället har motstridiga och inkonsekventa termer florerat. Svårigheterna med att bedöma reproducerbarhet och replikerbarhet kompliceras av denna avsaknad av standarddefinitioner för dessa termer.

I vissa områden har en term använts för att täcka alla relaterade begrepp: till exempel har ”replikering” historiskt sett täckt alla frågor inom statsvetenskap (King, 1995). I många sammanhang har termerna reproducerbar och replikerbar olika betydelser, men olika samfund har antagit motsatta definitioner (Claerbout och Karrenbach, 1992; Peng et al., 2006; Association for Computing Machinery, 2018). Vissa har lagt till kvalificerande termer som metodreproducerbarhet, resultatreproducerbarhet och inferentiell reproducerbarhet till lexikonet (Goodman et al., 2016). I synnerhet har det uppstått spänningar mellan den användning som nyligen antagits inom datavetenskap och det sätt på vilket forskare inom andra vetenskapliga discipliner har beskrivit dessa idéer i flera år (Heroux et al., 2018).

I början av 1990-talet började forskare använda termen ”reproducerbar forskning” för studier som tillhandahöll ett komplett digitalt kompendium av data och kod för att kunna reproducera sina analyser, i synnerhet när det gäller bearbetning av inspelningar av seismiska vågor (Claerbout och Karrenbach, 1992; Buckheit och Donoho, 1995). Tyngdpunkten låg på att se till att en beräkningsanalys var transparent och dokumenterad så att den kunde verifieras av andra forskare. Även om detta begrepp reproducerbarhet skiljer sig helt från situationer där en forskare samlar in nya data i hopp om att oberoende verifiera tidigare resultat eller en vetenskaplig slutsats, använder vissa vetenskapliga områden termen reproducerbarhet för att hänvisa till denna praxis. Peng et al. (2006, s. 783) hänvisar till detta scenario som ”replikerbarhet” och konstaterar: ”Vetenskapliga bevis stärks när viktiga resultat replikeras av flera oberoende forskare med hjälp av oberoende data, analysmetoder, laboratorier och instrument”. Trots försök att enas kring användningen av dessa termer råder det fortfarande brist på samförstånd inom olika discipliner. Den resulterande förvirringen är ett hinder för att gå vidare för att förbättra reproducerbarhet och replikerbarhet (Barba, 2018).

I ett granskningsdokument om användningen av termerna reproducerbarhet och replikerbarhet beskrev Barba (2018) tre kategorier av användning, som hon karakteriserade som A, B1 och B2:

  • A: Termerna används utan någon skillnad mellan dem.
  • B1: ”Reproducerbarhet” avser fall där den ursprungliga forskarens data och datakoder används för att återskapa resultaten, medan ”replikerbarhet” avser fall där en forskare samlar in nya data för att komma fram till samma vetenskapliga resultat som en tidigare studie.
  • B2: ”Reproducerbarhet” avser oberoende forskare som kommer fram till samma resultat med hjälp av sina egna data och metoder, medan ”replikerbarhet” avser en annan grupp som kommer fram till samma resultat med hjälp av den ursprungliga författarens artefakter.

B1 och B2 står i motsatsförhållande till varandra när det gäller vilken term som innebär återanvändning av de ursprungliga författarnas digitala forskningsartefakter (”forskningskompendium”) och vilken term som innebär självständigt skapade digitala artefakter. Barba (2018) samlade in data om användningen av dessa termer inom en rad olika discipliner (se tabell 3-1).5

TABELL 3-1. Användning av termerna reproducerbarhet och replikerbarhet per vetenskaplig disciplin.

TABELL 3-1

Användning av termerna reproducerbarhet och replikerbarhet per vetenskaplig disciplin.

Den terminologi som Association for Computing Machinery (ACM) har antagit för datavetenskap publicerades 2016 som ett system för märken som är knutna till artiklar som publiceras av samfundet. ACM förklarade att dess definitioner var inspirerade av den metrologiska vokabulären och associerade användning av en originalförfattares digitala artefakter till ”replikerbarhet” och utveckling av helt nya digitala artefakter till ”reproducerbarhet”. Dessa terminologiska distinktioner strider mot användningen inom datavetenskap, där reproducerbarhet förknippas med öppenhet och tillgång till författarens digitala artefakter, och även med samhällsvetenskap, ekonomi, kliniska studier och andra områden, där replikeringsstudier samlar in nya data för att verifiera de ursprungliga resultaten.

Oavsett vilka specifika termer som används har de underliggande koncepten länge spelat en viktig roll inom alla vetenskapliga discipliner. Dessa begrepp är nära kopplade till följande allmänna frågor om vetenskapliga resultat:

  • Är uppgifterna och analysen utformade med tillräcklig öppenhet och tydlighet för att resultaten ska kunna kontrolleras?
  • Om det kontrolleras, stödjer de uppgifter och den analys som erbjuds till stöd för resultatet i själva verket detta resultat?
  • Om det visar sig att uppgifterna och analysen stödjer det ursprungliga resultatet, kan man då återfinna det rapporterade resultatet i den specifika studiekontext som undersökts?
  • Kan det resultat som rapporteras eller den slutsats som dras återfinnas i en bredare uppsättning studiekontexter?

Datorforskare använder i allmänhet begreppet reproducerbarhet för att besvara endast den första frågan – det vill säga reproducerbar forskning är forskning som kan kontrolleras eftersom data, koder och analysmetoder är tillgängliga för andra forskare. Termen reproducerbarhet kan också användas i samband med den andra frågan: forskning är reproducerbar om en annan forskare faktiskt använder de tillgängliga uppgifterna och koden och får samma resultat. Skillnaden mellan den första och den andra frågan är att en annan forskare agerar; den första hänvisar till tillgången till data, kod och analysmetoder, medan den andra hänvisar till handlingen att räkna om resultaten med hjälp av tillgängliga data, kod och analysmetoder.

För att besvara den första och den andra frågan använder en andra forskare data och kod från den första; inga nya data eller koder skapas av den andra forskaren. Reproducerbarheten beror endast på om metoderna för beräkningsanalysen rapporterades öppet och korrekt och om dessa data, kod eller annat material användes för att reproducera de ursprungliga resultaten. För att besvara fråga tre måste forskaren däremot göra om studien, följa de ursprungliga metoderna så nära som möjligt och samla in nya uppgifter. För att besvara fråga fyra kan en forskare gå olika vägar: välja ett nytt analysvillkor, genomföra samma studie i ett nytt sammanhang eller genomföra en ny studie som syftar till samma eller liknande forskningsfråga.

För denna rapport och i syfte att definiera dessa termer på ett sätt som är tillämpbart inom flera vetenskapliga discipliner, har kommittén valt att göra en distinktion mellan reproducerbarhet och replikerbarhet mellan den andra och den tredje frågan. Reproducerbarhet omfattar således den handling som innebär att en andra forskare räknar om de ursprungliga resultaten, och den kan uppfyllas med tillgången till data, kod och metoder som gör denna omräkning möjlig. Denna definition av reproducerbarhet avser beräkningarnas öppenhet och reproducerbarhet: den är alltså synonym med ”beräkningsmässig reproducerbarhet”, och vi använder termerna synonymt i den här rapporten.

När en ny studie genomförs och nya data samlas in, som syftar till samma eller en liknande vetenskaplig fråga som en tidigare studie, definierar vi det som en replikering. Ett replikeringsförsök kan utföras av samma forskare i samma laboratorium för att verifiera det ursprungliga resultatet, eller så kan det utföras av nya forskare i ett nytt laboratorium eller sammanhang, med samma eller andra metoder och analysvillkor. Om denna andra studie, som är inriktad på samma vetenskapliga fråga men som samlar in nya data, finner samstämmiga resultat eller kan dra samstämmiga slutsatser, är forskningen replikerbar. Om en andra studie utforskar en liknande vetenskaplig fråga men i andra sammanhang eller populationer som skiljer sig från den ursprungliga och finner konsekventa resultat, är forskningen ”generaliserbar”.6

Sammanfattningsvis, efter en omfattande genomgång av hur dessa termer används av olika forskarsamhällen, har kommittén antagit specifika definitioner för den här rapporten.

KONKLUSION 3-1: I den här rapporten innebär reproducerbarhet att man kan erhålla konsekventa resultat med hjälp av samma indata, beräkningssteg, metoder och koder samt analysvillkor. Denna definition är synonym med ”beräkningsmässig reproducerbarhet”, och termerna används omväxlande i denna rapport.

Replikerbarhet innebär att man uppnår konsekventa resultat i olika studier som syftar till att besvara samma vetenskapliga fråga och som var och en har erhållit sina egna data.

Två studier kan anses ha replikerats om de uppnår konsekventa resultat med tanke på den osäkerhetsnivå som är inneboende i det system som studeras. I studier som mäter en fysisk enhet (dvs. en mätare) kan resultaten vara uppsättningar av mätningar av samma mätare som erhållits av olika laboratorier. I studier som syftar till att upptäcka en effekt av ett avsiktligt ingripande eller en naturlig händelse kan resultaten vara typen och storleken på de effekter som konstaterats i olika studier som syftar till att besvara samma fråga. I allmänhet, när nya data erhålls som utgör resultaten av en studie som syftar till att besvara samma vetenskapliga fråga som en annan studie, utgör graden av överensstämmelse mellan resultaten från de två studierna deras grad av replikering.

Två viktiga begränsningar för replikerbarheten av vetenskapliga resultat ligger i begränsningar av mätnoggrannheten och potentialen för ändrade resultat på grund av ibland subtila variationer i de metoder och steg som utförs i en vetenskaplig studie. Vi tar uttryckligen hänsyn till båda här, eftersom de båda kan ha ett stort inflytande på replikerbarheten av vetenskapliga studier.