DEFINIR LA REPRODUCIBILITE ET LA REPLICABILITE
Différentes disciplines et institutions scientifiques utilisent les mots reproductibilité et réplicabilité de manière incohérente, voire contradictoire : Ce qu’un groupe entend par un mot, l’autre groupe l’entend par l’autre mot.4 Ces termes – et d’autres, comme la répétabilité – sont utilisés depuis longtemps en relation avec le concept général d’une expérience ou d’une étude confirmant les résultats d’une autre. Ces termes, et d’autres comme la répétabilité, sont utilisés depuis longtemps en relation avec le concept général d’une expérience ou d’une étude qui confirme les résultats d’une autre. Les difficultés d’évaluation de la reproductibilité et de la réplicabilité sont compliquées par cette absence de définitions standard pour ces termes.
Dans certains domaines, un terme a été utilisé pour couvrir tous les concepts connexes : par exemple, la « réplication » a historiquement couvert toutes les préoccupations en sciences politiques (King, 1995). Dans de nombreux contextes, les termes reproductible et réplicable ont des significations distinctes, mais différentes communautés ont adopté des définitions opposées (Claerbout et Karrenbach, 1992 ; Peng et al., 2006 ; Association for Computing Machinery, 2018). Certains ont ajouté des termes qualificatifs, tels que la reproductibilité des méthodes, la reproductibilité des résultats et la reproductibilité inférentielle, au lexique (Goodman et al., 2016). En particulier, une tension est apparue entre l’usage récemment adopté en informatique et la façon dont les chercheurs d’autres disciplines scientifiques décrivent ces idées depuis des années (Heroux et al., 2018).
Au début des années 1990, les chercheurs ont commencé à utiliser le terme « recherche reproductible » pour les études qui fournissaient un recueil numérique complet de données et de code pour reproduire leurs analyses, notamment dans le traitement des enregistrements d’ondes sismiques (Claerbout et Karrenbach, 1992 ; Buckheit et Donoho, 1995). L’accent était mis sur la transparence et la documentation d’une analyse informatique afin qu’elle puisse être vérifiée par d’autres chercheurs. Bien que cette notion de reproductibilité soit très différente des situations dans lesquelles un chercheur recueille de nouvelles données dans l’espoir de vérifier de manière indépendante des résultats antérieurs ou une inférence scientifique, certains domaines scientifiques utilisent le terme de reproductibilité pour désigner cette pratique. Peng et al. (2006, p. 783) ont qualifié ce scénario de » reproductibilité « , en notant : « Les preuves scientifiques sont renforcées lorsque des résultats importants sont reproduits par plusieurs chercheurs indépendants utilisant des données, des méthodes analytiques, des laboratoires et des instruments indépendants. » Malgré les efforts de coalescence autour de l’utilisation de ces termes, l’absence de consensus persiste entre les disciplines. La confusion qui en résulte est un obstacle pour aller de l’avant afin d’améliorer la reproductibilité et la réplicabilité (Barba, 2018).
Dans un document de synthèse sur l’utilisation des termes reproductibilité et réplicabilité, Barba (2018) a défini trois catégories d’utilisation, qu’elle a caractérisées comme A, B1 et B2:
A : Les termes sont utilisés sans distinction entre eux. B1 : La « reproductibilité » fait référence aux cas où les données et les codes informatiques du chercheur original sont utilisés pour régénérer les résultats, tandis que la « réplicabilité » fait référence aux cas où un chercheur collecte de nouvelles données pour arriver aux mêmes conclusions scientifiques qu’une étude précédente. B2 : La « reproductibilité » fait référence aux chercheurs indépendants qui arrivent aux mêmes résultats en utilisant leurs propres données et méthodes, tandis que la « réplicabilité » fait référence à une équipe différente qui arrive aux mêmes résultats en utilisant les artefacts de l’auteur original.
B1 et B2 s’opposent l’un à l’autre en ce qui concerne le terme qui implique la réutilisation des artefacts numériques de recherche des auteurs originaux (« recueil de recherche ») et celui qui implique des artefacts numériques créés indépendamment. Barba (2018) a recueilli des données sur l’utilisation de ces termes dans une variété de disciplines (voir le tableau 3-1).5
TABLE 3-1
Utilisation des termes reproductibilité et réplicabilité par discipline scientifique.
La terminologie adoptée par l’Association for Computing Machinery (ACM) pour l’informatique a été publiée en 2016 sous la forme d’un système de badges attachés aux articles publiés par la société. L’ACM a déclaré que ses définitions étaient inspirées du vocabulaire de la métrologie, et elle a associé l’utilisation des artefacts numériques d’un auteur original à la « réplicabilité », et le développement d’artefacts numériques entièrement nouveaux à la « reproductibilité. » Ces distinctions terminologiques contredisent l’usage dans la science informatique, où la reproductibilité est associée à la transparence et à l’accès aux artefacts numériques de l’auteur, ainsi que dans les sciences sociales, l’économie, les études cliniques et d’autres domaines, où les études de réplication collectent de nouvelles données pour vérifier les résultats originaux.
Qu’importe les termes spécifiques utilisés, les concepts sous-jacents jouent depuis longtemps des rôles essentiels dans toutes les disciplines scientifiques. Ces concepts sont étroitement liés aux questions générales suivantes sur les résultats scientifiques :
-
Les données et l’analyse sont-elles exposées avec suffisamment de transparence et de clarté pour que les résultats puissent être vérifiés ?
-
Si elles sont vérifiées, les données et l’analyse proposées à l’appui du résultat appuient-elles effectivement ce résultat ?
-
Si les données et l’analyse s’avèrent appuyer le résultat initial, le résultat rapporté peut-il être retrouvé dans le contexte d’étude spécifique étudié ?
-
Enfin, le résultat rapporté ou l’inférence tirée peuvent-ils être retrouvés dans un ensemble plus large de contextes d’étude ?
Les informaticiens utilisent généralement le terme reproductibilité pour répondre uniquement à la première question – c’est-à-dire que la recherche reproductible est une recherche qui peut être vérifiée parce que les données, le code et les méthodes d’analyse sont disponibles pour d’autres chercheurs. Le terme de reproductibilité peut également être utilisé dans le contexte de la deuxième question : une recherche est reproductible si un autre chercheur utilise effectivement les données et le code disponibles et obtient les mêmes résultats. La différence entre la première et la deuxième question est une différence d’action par un autre chercheur ; la première fait référence à la disponibilité des données, du code et des méthodes d’analyse, tandis que la deuxième fait référence à l’acte de recalculer les résultats en utilisant les données, le code et les méthodes d’analyse disponibles.
Pour répondre à la première et à la deuxième question, un deuxième chercheur utilise les données et le code du premier ; aucune nouvelle donnée ou aucun nouveau code n’est créé par le deuxième chercheur. La reproductibilité dépend uniquement du fait que les méthodes de l’analyse informatique ont été rapportées de manière transparente et précise et que ces données, ce code ou d’autres matériaux ont été utilisés pour reproduire les résultats originaux. En revanche, pour répondre à la troisième question, un chercheur doit refaire l’étude, en suivant les méthodes originales aussi fidèlement que possible et en collectant de nouvelles données. Pour répondre à la quatrième question, un chercheur peut emprunter diverses voies : choisir une nouvelle condition d’analyse, mener la même étude dans un nouveau contexte, ou mener une nouvelle étude visant la même question de recherche ou une question similaire.
Pour les besoins du présent rapport et dans le but de définir ces termes de manière à ce qu’ils s’appliquent à de multiples disciplines scientifiques, le comité a choisi de faire la distinction entre la reproductibilité et la réplicabilité entre la deuxième et la troisième question. Ainsi, la reproductibilité comprend l’acte d’un second chercheur recalculant les résultats originaux, et elle peut être satisfaite par la disponibilité des données, du code et des méthodes qui rendent ce recalcul possible. Cette définition de la reproductibilité fait référence à la transparence et à la reproductibilité des calculs : c’est-à-dire qu’elle est synonyme de » reproductibilité computationnelle « , et nous utilisons ces termes de manière interchangeable dans ce rapport.
Lorsqu’une nouvelle étude est menée et que de nouvelles données sont collectées, visant la même question scientifique ou une question scientifique similaire à une précédente, nous la définissons comme une réplication. Une tentative de réplication peut être menée par les mêmes chercheurs dans le même laboratoire afin de vérifier le résultat original, ou bien elle peut être menée par de nouveaux chercheurs dans un nouveau laboratoire ou un nouveau contexte, en utilisant des méthodes et des conditions d’analyse identiques ou différentes. Si cette deuxième étude, visant la même question scientifique mais collectant de nouvelles données, trouve des résultats cohérents ou peut tirer des conclusions cohérentes, la recherche est reproductible. Si une deuxième étude explore une question scientifique similaire, mais dans d’autres contextes ou populations qui diffèrent de l’étude initiale, et qu’elle trouve des résultats cohérents, la recherche est » généralisable « .6
En résumé, après un examen approfondi de la façon dont ces termes sont utilisés par les différentes communautés scientifiques, le comité a adopté des définitions spécifiques pour ce rapport.
CONCLUSION 3-1 : Pour ce rapport, la reproductibilité consiste à obtenir des résultats cohérents en utilisant les mêmes données d’entrée ; les mêmes étapes, méthodes et codes de calcul ; et les mêmes conditions d’analyse. Cette définition est synonyme de « reproductibilité computationnelle », et les termes sont utilisés de manière interchangeable dans ce rapport.
La reproductibilité consiste à obtenir des résultats cohérents entre des études visant à répondre à la même question scientifique, chacune ayant obtenu ses propres données.
On peut considérer que deux études ont été reproduites si elles obtiennent des résultats cohérents compte tenu du niveau d’incertitude inhérent au système étudié. Dans les études qui mesurent une entité physique (c’est-à-dire un mesurande), les résultats peuvent être les ensembles de mesures du même mesurande obtenus par différents laboratoires. Dans les études visant à détecter l’effet d’une intervention intentionnelle ou d’un événement naturel, les résultats peuvent être le type et la taille des effets trouvés dans différentes études visant à répondre à la même question. En général, chaque fois que de nouvelles données sont obtenues qui constituent les résultats d’une étude visant à répondre à la même question scientifique qu’une autre étude, le degré de cohérence des résultats des deux études constitue leur degré de réplication.
Deux contraintes importantes sur la réplicabilité des résultats scientifiques reposent dans les limites de la précision de la mesure et le potentiel d’altération des résultats en raison de la variation parfois subtile des méthodes et des étapes réalisées dans une étude scientifique. Nous considérons expressément les deux ici, car ils peuvent chacun avoir une influence profonde sur la réplicabilité des études scientifiques.