Bookshelf

DEFINIEREN VON REPRODUZIERBARKEIT UND REPLIZIERBARKEIT

Unterschiedliche wissenschaftliche Disziplinen und Institutionen verwenden die Begriffe Reproduzierbarkeit und Replizierbarkeit in uneinheitlicher oder sogar widersprüchlicher Weise: Was die eine Gruppe mit dem einen Wort meint, meint die andere Gruppe mit dem anderen Wort.4 Diese Begriffe – und andere, wie z. B. Wiederholbarkeit – werden seit langem im Zusammenhang mit dem allgemeinen Konzept verwendet, dass ein Experiment oder eine Studie die Ergebnisse eines anderen bestätigt. Innerhalb dieses allgemeinen Konzepts hat sich jedoch keine terminologisch kohärente Art der Unterscheidung herausgebildet; stattdessen haben sich widersprüchliche und uneinheitliche Begriffe herausgebildet. Die Schwierigkeiten bei der Bewertung von Reproduzierbarkeit und Replizierbarkeit werden durch das Fehlen von Standarddefinitionen für diese Begriffe erschwert.

In einigen Bereichen wurde ein Begriff verwendet, um alle verwandten Konzepte abzudecken: zum Beispiel deckte „Replikation“ historisch alle Belange der Politikwissenschaft ab (King, 1995). In vielen Bereichen haben die Begriffe „reproduzierbar“ und „replizierbar“ unterschiedliche Bedeutungen, aber verschiedene Gemeinschaften haben entgegengesetzte Definitionen angenommen (Claerbout und Karrenbach, 1992; Peng et al., 2006; Association for Computing Machinery, 2018). Einige haben qualifizierende Begriffe wie Reproduzierbarkeit der Methoden, Reproduzierbarkeit der Ergebnisse und Reproduzierbarkeit der Schlussfolgerungen in das Lexikon aufgenommen (Goodman et al., 2016). Insbesondere gibt es Spannungen zwischen der kürzlich in der Informatik eingeführten Verwendung und der Art und Weise, wie Forscher in anderen wissenschaftlichen Disziplinen diese Ideen seit Jahren beschreiben (Heroux et al., 2018).

In den frühen 1990er Jahren begannen Forscher, den Begriff „reproduzierbare Forschung“ für Studien zu verwenden, die ein vollständiges digitales Kompendium von Daten und Code zur Verfügung stellten, um ihre Analysen zu reproduzieren, insbesondere bei der Verarbeitung von seismischen Wellenaufzeichnungen (Claerbout und Karrenbach, 1992; Buckheit und Donoho, 1995). Das Hauptaugenmerk lag darauf, sicherzustellen, dass eine rechnerische Analyse transparent und dokumentiert ist, so dass sie von anderen Forschern überprüft werden kann. Dieser Begriff der Reproduzierbarkeit unterscheidet sich zwar deutlich von Situationen, in denen ein Forscher neue Daten in der Hoffnung sammelt, frühere Ergebnisse oder eine wissenschaftliche Schlussfolgerung unabhängig überprüfen zu können, aber in einigen wissenschaftlichen Bereichen wird der Begriff Reproduzierbarkeit für diese Praxis verwendet. Peng et al. (2006, S. 783) bezeichnen dieses Szenario als „Replizierbarkeit“ und merken an: „Wissenschaftliche Beweise werden gestärkt, wenn wichtige Ergebnisse von mehreren unabhängigen Forschern unter Verwendung unabhängiger Daten, Analysemethoden, Labors und Instrumente wiederholt werden.“ Trotz der Bemühungen um eine einheitliche Verwendung dieser Begriffe besteht in den verschiedenen Disziplinen nach wie vor kein Konsens. Die daraus resultierende Verwirrung ist ein Hindernis für Fortschritte bei der Verbesserung von Reproduzierbarkeit und Replizierbarkeit (Barba, 2018).

In einer Übersichtsarbeit über die Verwendung der Begriffe Reproduzierbarkeit und Replizierbarkeit hat Barba (2018) drei Verwendungskategorien skizziert, die sie als A, B1 und B2 bezeichnet:

  • A: Die Begriffe werden ohne Unterscheidung verwendet.
  • B1: „Reproduzierbarkeit“ bezieht sich auf Fälle, in denen die Daten und Computercodes des ursprünglichen Forschers verwendet werden, um die Ergebnisse neu zu generieren, während „Replizierbarkeit“ sich auf Fälle bezieht, in denen ein Forscher neue Daten sammelt, um zu denselben wissenschaftlichen Ergebnissen zu gelangen wie bei einer früheren Studie.
  • B2: „Reproduzierbarkeit“ bezieht sich auf unabhängige Forscher, die unter Verwendung ihrer eigenen Daten und Methoden zu denselben Ergebnissen gelangen, während „Replizierbarkeit“ sich darauf bezieht, dass ein anderes Team unter Verwendung der Artefakte des ursprünglichen Autors zu denselben Ergebnissen gelangt.

B1 und B2 stehen sich in Bezug darauf gegenüber, welcher Begriff die Wiederverwendung der digitalen Forschungsartefakte der Originalautoren („Forschungskompendium“) und welcher die unabhängig erstellten digitalen Artefakte umfasst. Barba (2018) sammelte Daten zur Verwendung dieser Begriffe in einer Vielzahl von Disziplinen (siehe Tabelle 3-1).5

TABLE 3-1. Verwendung der Begriffe Reproduzierbarkeit und Replizierbarkeit nach wissenschaftlichen Disziplinen.

TABLE 3-1

Usage of the Terms Reproducibility and Replicability by Scientific Discipline.

Die von der Association for Computing Machinery (ACM) angenommene Terminologie für die Informatik wurde 2016 als System für Abzeichen veröffentlicht, die den von der Gesellschaft veröffentlichten Artikeln beigefügt werden. Die ACM erklärte, ihre Definitionen seien vom Vokabular der Metrologie inspiriert, und assoziierte die Verwendung der digitalen Artefakte eines Originalautors mit „Replizierbarkeit“ und die Entwicklung völlig neuer digitaler Artefakte mit „Reproduzierbarkeit“. Diese terminologischen Unterscheidungen stehen im Widerspruch zum Sprachgebrauch in den Computerwissenschaften, wo Reproduzierbarkeit mit Transparenz und Zugang zu den digitalen Artefakten des Autors assoziiert wird, und auch in den Sozial- und Wirtschaftswissenschaften, in klinischen Studien und anderen Bereichen, wo Replikationsstudien neue Daten erheben, um die ursprünglichen Ergebnisse zu verifizieren.

Ungeachtet der verwendeten spezifischen Begriffe spielen die zugrunde liegenden Konzepte seit langem in allen wissenschaftlichen Disziplinen eine wesentliche Rolle. Diese Konzepte stehen in engem Zusammenhang mit den folgenden allgemeinen Fragen zu wissenschaftlichen Ergebnissen:

  • Sind die Daten und die Analyse so transparent und klar dargelegt, dass die Ergebnisse überprüft werden können?
  • Wenn sie überprüft werden, stützen die Daten und die Analyse, die zur Unterstützung des Ergebnisses angeboten werden, dieses Ergebnis tatsächlich?
  • Wenn die Daten und die Analyse das ursprüngliche Ergebnis stützen, kann das berichtete Ergebnis in dem untersuchten spezifischen Studienkontext wiedergefunden werden?
  • Kann schließlich das berichtete Ergebnis oder die gezogene Schlussfolgerung in einem breiteren Studienkontext wiedergefunden werden?

Informatikwissenschaftler verwenden den Begriff Reproduzierbarkeit im Allgemeinen nur zur Beantwortung der ersten Frage, d. h. reproduzierbare Forschung ist Forschung, die überprüft werden kann, weil die Daten, der Code und die Analysemethoden anderen Forschern zur Verfügung stehen. Der Begriff der Reproduzierbarkeit kann auch im Zusammenhang mit der zweiten Frage verwendet werden: Forschung ist dann reproduzierbar, wenn ein anderer Forscher die verfügbaren Daten und den Code tatsächlich verwendet und zu denselben Ergebnissen gelangt. Der Unterschied zwischen der ersten und der zweiten Frage liegt in der Handlung eines anderen Forschers; die erste Frage bezieht sich auf die Verfügbarkeit der Daten, des Codes und der Analysemethoden, während die zweite Frage sich auf den Akt der Neuberechnung der Ergebnisse unter Verwendung der verfügbaren Daten, des Codes und der Analysemethoden bezieht.

Um die erste und die zweite Frage zu beantworten, verwendet ein zweiter Forscher die Daten und den Code des ersten Forschers; es werden keine neuen Daten oder Codes vom zweiten Forscher erstellt. Die Reproduzierbarkeit hängt nur davon ab, ob die Methoden der rechnerischen Analyse transparent und genau angegeben wurden und ob diese Daten, dieser Code oder andere Materialien zur Reproduktion der ursprünglichen Ergebnisse verwendet wurden. Zur Beantwortung von Frage drei muss ein Forscher die Studie dagegen neu durchführen, wobei er die ursprünglichen Methoden so genau wie möglich befolgen und neue Daten erheben muss. Zur Beantwortung der vierten Frage könnte ein Forscher verschiedene Wege einschlagen: eine neue Analysebedingung wählen, dieselbe Studie in einem neuen Kontext durchführen oder eine neue Studie mit derselben oder einer ähnlichen Forschungsfrage durchführen.

Für die Zwecke dieses Berichts und mit dem Ziel, diese Begriffe so zu definieren, dass sie in mehreren wissenschaftlichen Disziplinen anwendbar sind, hat sich der Ausschuss dafür entschieden, die Unterscheidung zwischen Reproduzierbarkeit und Replizierbarkeit zwischen der zweiten und der dritten Frage zu treffen. So beinhaltet die Reproduzierbarkeit den Akt, dass ein zweiter Forscher die ursprünglichen Ergebnisse neu berechnet, und sie kann durch die Verfügbarkeit von Daten, Code und Methoden erfüllt werden, die diese Neuberechnung möglich machen. Diese Definition von Reproduzierbarkeit bezieht sich auf die Transparenz und Reproduzierbarkeit von Berechnungen: Sie ist also gleichbedeutend mit „rechnerischer Reproduzierbarkeit“, und wir verwenden die Begriffe in diesem Bericht synonym.

Wenn eine neue Studie durchgeführt und neue Daten gesammelt werden, die auf dieselbe oder eine ähnliche wissenschaftliche Frage wie eine frühere Studie abzielen, definieren wir dies als Replikation. Ein Replikationsversuch kann von denselben Forschern im selben Labor durchgeführt werden, um das ursprüngliche Ergebnis zu verifizieren, oder er kann von neuen Forschern in einem neuen Labor oder Kontext durchgeführt werden, wobei dieselben oder andere Analysemethoden und -bedingungen verwendet werden. Wenn diese zweite Studie, die auf dieselbe wissenschaftliche Frage abzielt, aber neue Daten erhebt, zu konsistenten Ergebnissen kommt oder konsistente Schlussfolgerungen ziehen kann, ist die Forschung replizierbar. Wenn eine zweite Studie eine ähnliche wissenschaftliche Frage untersucht, aber in anderen Kontexten oder Populationen, die sich von der ursprünglichen unterscheiden, und konsistente Ergebnisse findet, ist die Forschung „verallgemeinerbar“.6

Zusammenfassend hat der Ausschuss nach einer ausführlichen Überprüfung der Art und Weise, wie diese Begriffe von verschiedenen wissenschaftlichen Gemeinschaften verwendet werden, spezifische Definitionen für diesen Bericht angenommen.

KONZENTRATION 3-1: Für diesen Bericht bedeutet Reproduzierbarkeit die Erzielung konsistenter Ergebnisse unter Verwendung derselben Eingabedaten, Berechnungsschritte, Methoden und Codes sowie der Analysebedingungen. Diese Definition ist gleichbedeutend mit „rechnerischer Reproduzierbarkeit“, und die Begriffe werden in diesem Bericht synonym verwendet.

Replizierbarkeit bedeutet, konsistente Ergebnisse über Studien hinweg zu erhalten, die auf die Beantwortung derselben wissenschaftlichen Frage abzielen und von denen jede ihre eigenen Daten erhalten hat.

Zwei Studien können als repliziert betrachtet werden, wenn sie konsistente Ergebnisse in Anbetracht des Unsicherheitsniveaus, das dem untersuchten System innewohnt, erhalten. Bei Studien, die eine physikalische Einheit (d. h. eine Messgröße) messen, können die Ergebnisse die von verschiedenen Labors erhaltenen Messreihen derselben Messgröße sein. Bei Studien, die darauf abzielen, die Auswirkungen eines absichtlichen Eingriffs oder eines natürlichen Ereignisses zu ermitteln, können die Ergebnisse die Art und der Umfang der Auswirkungen sein, die in verschiedenen Studien zur Beantwortung derselben Frage festgestellt wurden. Im Allgemeinen gilt, dass immer dann, wenn neue Daten gewonnen werden, die die Ergebnisse einer Studie darstellen, die auf die Beantwortung derselben wissenschaftlichen Frage abzielt wie eine andere Studie, der Grad der Übereinstimmung der Ergebnisse der beiden Studien den Grad ihrer Replikation darstellt.

Zwei wichtige Einschränkungen für die Replizierbarkeit wissenschaftlicher Ergebnisse liegen in den Grenzen der Messgenauigkeit und dem Potenzial für veränderte Ergebnisse aufgrund manchmal subtiler Variationen in den Methoden und Schritten, die in einer wissenschaftlichen Studie durchgeführt werden. Wir gehen hier ausdrücklich auf beide ein, da sie jeweils einen tiefgreifenden Einfluss auf die Replizierbarkeit wissenschaftlicher Studien haben können.