Bookshelf

DEFINING REPRODUCIBILITY AND REPLICABILITY

Diverse discipline e istituzioni scientifiche usano le parole riproducibilità e replicabilità in modi incoerenti o addirittura contraddittori: Ciò che un gruppo intende con una parola, l’altro gruppo intende con l’altra.4 Questi termini – e altri, come ripetibilità – sono stati a lungo usati in relazione al concetto generale di un esperimento o studio che conferma i risultati di un altro. All’interno di questo concetto generale, tuttavia, non è emerso un modo terminologicamente coerente di tracciare le distinzioni; al contrario, sono fioriti termini contrastanti e incoerenti. Le difficoltà nel valutare la riproducibilità e la replicabilità sono complicate da questa assenza di definizioni standard per questi termini.

In alcuni campi, un termine è stato usato per coprire tutti i concetti correlati: per esempio, “replica” ha storicamente coperto tutte le preoccupazioni nelle scienze politiche (King, 1995). In molte impostazioni, i termini riproducibile e replicabile hanno significati distinti, ma diverse comunità hanno adottato definizioni opposte (Claerbout e Karrenbach, 1992; Peng et al., 2006; Association for Computing Machinery, 2018). Alcuni hanno aggiunto al lessico termini qualificanti, come riproducibilità dei metodi, riproducibilità dei risultati e riproducibilità inferenziale (Goodman et al., 2016). In particolare, è emersa una tensione tra l’uso recentemente adottato in informatica e il modo in cui i ricercatori di altre discipline scientifiche hanno descritto queste idee per anni (Heroux et al., 2018).

Nei primi anni ’90, i ricercatori hanno iniziato a utilizzare il termine “ricerca riproducibile” per gli studi che fornivano un compendio digitale completo di dati e codice per riprodurre le loro analisi, in particolare nell’elaborazione delle registrazioni di onde sismiche (Claerbout e Karrenbach, 1992; Buckheit e Donoho, 1995). L’enfasi era di assicurare che un’analisi computazionale fosse trasparente e documentata in modo che potesse essere verificata da altri ricercatori. Mentre questa nozione di riproducibilità è molto diversa dalle situazioni in cui un ricercatore raccoglie nuovi dati nella speranza di verificare indipendentemente i risultati precedenti o un’inferenza scientifica, alcuni campi scientifici usano il termine riproducibilità per riferirsi a questa pratica. Peng et al. (2006, p. 783) si riferiscono a questo scenario come “replicabilità”, notando che: “L’evidenza scientifica è rafforzata quando i risultati importanti sono replicati da più ricercatori indipendenti utilizzando dati, metodi analitici, laboratori e strumenti indipendenti”. Nonostante gli sforzi per coalizzarsi intorno all’uso di questi termini, la mancanza di consenso persiste tra le discipline. La confusione risultante è un ostacolo nell’andare avanti per migliorare la riproducibilità e la replicabilità (Barba, 2018).

In un documento di revisione sull’uso dei termini riproducibilità e replicabilità, Barba (2018) ha delineato tre categorie di utilizzo, che ha caratterizzato come A, B1, e B2:

  • A: I termini sono usati senza distinzione tra loro.
  • B1: “Riproducibilità” si riferisce ai casi in cui i dati e i codici informatici del ricercatore originale sono usati per rigenerare i risultati, mentre “replicabilità” si riferisce ai casi in cui un ricercatore raccoglie nuovi dati per arrivare agli stessi risultati scientifici di uno studio precedente.
  • B2: “Riproducibilità” si riferisce a ricercatori indipendenti che arrivano agli stessi risultati usando i propri dati e metodi, mentre “replicabilità” si riferisce a un team diverso che arriva agli stessi risultati usando gli artefatti dell’autore originale.

B1 e B2 sono in opposizione tra loro rispetto a quale termine comporta il riutilizzo degli artefatti digitali di ricerca degli autori originali (“compendio di ricerca”) e quale comporta artefatti digitali creati indipendentemente. Barba (2018) ha raccolto dati sull’uso di questi termini in una varietà di discipline (vedi Tabella 3-1).5

TABELLA 3-1. Uso dei termini riproducibilità e replicabilità per disciplina scientifica.

TABELLA 3-1

Uso dei termini riproducibilità e replicabilità per disciplina scientifica.

La terminologia adottata dall’Association for Computing Machinery (ACM) per l’informatica è stata pubblicata nel 2016 come sistema di badge allegati agli articoli pubblicati dalla società. L’ACM ha dichiarato che le sue definizioni sono state ispirate dal vocabolario di metrologia, e ha associato l’utilizzo degli artefatti digitali di un autore originale alla “replicabilità”, e lo sviluppo di artefatti digitali completamente nuovi alla “riproducibilità”. Queste distinzioni terminologiche contraddicono l’uso nella scienza computazionale, dove la riproducibilità è associata alla trasparenza e all’accesso agli artefatti digitali dell’autore, e anche con le scienze sociali, l’economia, gli studi clinici e altri domini, dove gli studi di replica raccolgono nuovi dati per verificare i risultati originali.

A prescindere dai termini specifici usati, i concetti sottostanti hanno giocato a lungo ruoli essenziali in tutte le discipline scientifiche. Questi concetti sono strettamente collegati alle seguenti domande generali sui risultati scientifici:

  • I dati e le analisi sono esposti con sufficiente trasparenza e chiarezza da permettere la verifica dei risultati?
  • Se verificati, i dati e le analisi offerti a sostegno del risultato supportano effettivamente quel risultato?
  • Se i dati e le analisi si mostrano a sostegno del risultato originale, il risultato riportato può essere ritrovato nel contesto specifico dello studio indagato?
  • Infine, il risultato riportato o l’inferenza tratta può essere ritrovata in un insieme più ampio di contesti di studio?

Gli scienziati computazionali generalmente usano il termine riproducibilità per rispondere solo alla prima domanda – cioè, la ricerca riproducibile è una ricerca che può essere controllata perché i dati, il codice e i metodi di analisi sono disponibili per altri ricercatori. Il termine riproducibilità può essere usato anche nel contesto della seconda domanda: la ricerca è riproducibile se un altro ricercatore usa effettivamente i dati e il codice disponibili e ottiene gli stessi risultati. La differenza tra la prima e la seconda domanda riguarda l’azione di un altro ricercatore; la prima si riferisce alla disponibilità dei dati, del codice e dei metodi di analisi, mentre la seconda si riferisce all’atto di ricalcolare i risultati utilizzando i dati, il codice e i metodi di analisi disponibili.

Per rispondere alla prima e alla seconda domanda, un secondo ricercatore utilizza i dati e il codice del primo; il secondo ricercatore non crea nuovi dati o codici. La riproducibilità dipende solo dal fatto che i metodi dell’analisi computazionale siano stati riportati in modo trasparente e accurato e che i dati, il codice o altri materiali siano stati utilizzati per riprodurre i risultati originali. Al contrario, per rispondere alla terza domanda, un ricercatore deve rifare lo studio, seguendo il più possibile i metodi originali e raccogliendo nuovi dati. Per rispondere alla quarta domanda, un ricercatore potrebbe prendere una varietà di strade: scegliere una nuova condizione di analisi, condurre lo stesso studio in un nuovo contesto, o condurre un nuovo studio mirato allo stesso o simile quesito di ricerca.

Per gli scopi di questo rapporto e con l’obiettivo di definire questi termini in modi che si applicano in più discipline scientifiche, la commissione ha scelto di tracciare la distinzione tra riproducibilità e replicabilità tra la seconda e la terza domanda. Così, la riproducibilità include l’atto di un secondo ricercatore che ricomputa i risultati originali, e può essere soddisfatta dalla disponibilità di dati, codice e metodi che rendono possibile tale ricomputazione. Questa definizione di riproducibilità si riferisce alla trasparenza e alla riproducibilità dei calcoli: cioè, è sinonimo di “riproducibilità computazionale”, e noi usiamo i termini in modo intercambiabile in questo rapporto.

Quando viene condotto un nuovo studio e vengono raccolti nuovi dati, finalizzati alla stessa domanda scientifica o a una domanda simile a quella precedente, lo definiamo una replica. Un tentativo di replica può essere condotto dagli stessi ricercatori nello stesso laboratorio per verificare il risultato originale, o può essere condotto da nuovi ricercatori in un nuovo laboratorio o contesto, utilizzando gli stessi o diversi metodi e condizioni di analisi. Se questo secondo studio, mirato allo stesso quesito scientifico ma che raccoglie nuovi dati, trova risultati coerenti o può trarre conclusioni coerenti, la ricerca è replicabile. Se un secondo studio esplora un quesito scientifico simile ma in altri contesti o popolazioni che differiscono da quello originale e trova risultati coerenti, la ricerca è “generalizzabile”.6

In sintesi, dopo un’ampia revisione dei modi in cui questi termini sono usati dalle diverse comunità scientifiche, la commissione ha adottato definizioni specifiche per questo rapporto.

CONCLUSIONE 3-1: Per questo rapporto, la riproducibilità è ottenere risultati coerenti usando gli stessi dati di input; fasi di calcolo, metodi e codice; e condizioni di analisi. Questa definizione è sinonimo di “riproducibilità computazionale”, e i termini sono usati in modo intercambiabile in questo rapporto.

Riplicabilità è ottenere risultati coerenti tra gli studi che mirano a rispondere alla stessa domanda scientifica, ognuno dei quali ha ottenuto i propri dati.

Due studi possono essere considerati replicati se ottengono risultati coerenti dato il livello di incertezza inerente al sistema in studio. Negli studi che misurano un’entità fisica (cioè un misurando), i risultati possono essere le serie di misurazioni dello stesso misurando ottenute da diversi laboratori. Negli studi che mirano a rilevare un effetto di un intervento intenzionale o di un evento naturale, i risultati possono essere il tipo e la dimensione degli effetti trovati in diversi studi volti a rispondere alla stessa domanda. In generale, ogni volta che si ottengono nuovi dati che costituiscono i risultati di uno studio volto a rispondere alla stessa domanda scientifica di un altro studio, il grado di coerenza dei risultati dei due studi costituisce il loro grado di replicazione.

Due importanti vincoli sulla replicabilità dei risultati scientifici risiedono nei limiti della precisione della misurazione e nel potenziale di risultati alterati a causa di variazioni talvolta sottili nei metodi e nei passaggi eseguiti in uno studio scientifico. Qui li consideriamo espressamente entrambi, poiché ciascuno di essi può avere una profonda influenza sulla replicabilità degli studi scientifici.