Bookshelf

DEFINING REPRODUCIBILITY AND REPLICABILITY

Różne dyscypliny i instytucje naukowe używają słów reprodukowalność i odtwarzalność w sposób niespójny, a nawet sprzeczny: To, co jedna grupa rozumie przez jedno słowo, inna grupa rozumie przez drugie słowo.4 Terminy te – i inne, takie jak powtarzalność – od dawna były używane w odniesieniu do ogólnej koncepcji jednego eksperymentu lub badania potwierdzającego wyniki innego. W ramach tego ogólnego pojęcia nie wyłonił się jednak żaden spójny terminologicznie sposób rozróżniania; zamiast tego, rozkwitły sprzeczne i niespójne terminy. Trudności w ocenie odtwarzalności i odtwarzalności są skomplikowane przez brak standardowych definicji tych terminów.

W niektórych dziedzinach, jeden termin był używany do pokrycia wszystkich powiązanych pojęć: na przykład, „replikacja” historycznie obejmowała wszystkie problemy w naukach politycznych (King, 1995). W wielu środowiskach terminy reprodukowalny i replikowalny mają odrębne znaczenia, ale różne społeczności przyjęły przeciwstawne definicje (Claerbout i Karrenbach, 1992; Peng et al., 2006; Association for Computing Machinery, 2018). Niektóre z nich dodały do leksykonu terminy kwalifikujące, takie jak odtwarzalność metod, odtwarzalność wyników i odtwarzalność wnioskowania (Goodman i in., 2016). W szczególności pojawiło się napięcie między zastosowaniem przyjętym ostatnio w informatyce a sposobem, w jaki badacze z innych dyscyplin naukowych opisywali te idee od lat (Heroux i in., 2018).

Na początku lat 90. badacze zaczęli używać terminu „badania odtwarzalne” w odniesieniu do badań, które dostarczyły kompletne cyfrowe kompendium danych i kodu w celu odtworzenia ich analiz, w szczególności w zakresie przetwarzania nagrań fal sejsmicznych (Claerbout i Karrenbach, 1992; Buckheit i Donoho, 1995). Nacisk kładziono na zapewnienie, że analiza obliczeniowa jest przejrzysta i udokumentowana tak, że może być zweryfikowana przez innych badaczy. Chociaż pojęcie odtwarzalności różni się od sytuacji, w której badacz gromadzi nowe dane w nadziei na niezależną weryfikację poprzednich wyników lub wnioskowania naukowego, niektóre dziedziny nauki używają terminu odtwarzalność w odniesieniu do tej praktyki. Peng et al. (2006, s. 783) określili ten scenariusz jako „replikowalność”, zauważając: „Dowody naukowe są wzmocnione, gdy ważne wyniki są replikowane przez wielu niezależnych badaczy przy użyciu niezależnych danych, metod analitycznych, laboratoriów i instrumentów”. Pomimo wysiłków zmierzających do ujednolicenia stosowania tych terminów, brak konsensusu utrzymuje się w różnych dyscyplinach. Wynikające z tego zamieszanie stanowi przeszkodę w dążeniu do poprawy odtwarzalności i replikowalności (Barba, 2018).

W pracy przeglądowej dotyczącej stosowania terminów odtwarzalność i replikowalność, Barba (2018) nakreśliła trzy kategorie użycia, które scharakteryzowała jako A, B1 i B2:

  • A: Terminy są używane bez rozróżnienia między nimi.
  • B1: „Odtwarzalność” odnosi się do przypadków, w których oryginalne dane i kody komputerowe badacza są wykorzystywane do odtworzenia wyników, podczas gdy „replikowalność” odnosi się do przypadków, w których badacz zbiera nowe dane, aby dojść do tych samych ustaleń naukowych, co w poprzednim badaniu.
  • B2: „Odtwarzalność” odnosi się do niezależnych badaczy dochodzących do tych samych wyników przy użyciu własnych danych i metod, podczas gdy „replikowalność” odnosi się do innego zespołu dochodzącego do tych samych wyników przy użyciu artefaktów oryginalnego autora.

B1 i B2 są w opozycji do siebie w odniesieniu do tego, który termin obejmuje ponowne wykorzystanie cyfrowych artefaktów badań oryginalnych autorów („kompendium badawcze”), a który obejmuje niezależnie stworzone artefakty cyfrowe. Barba (2018) zebrał dane na temat użycia tych terminów w różnych dyscyplinach (patrz Tabela 3-1).5

TABELA 3-1. Usage of the Terms Reproducibility and Replicability by Scientific Discipline.

TABLE 3-1

Usage of the Terms Reproducibility and Replicability by Scientific Discipline.

Terminologia przyjęta przez Association for Computing Machinery (ACM) dla informatyki została opublikowana w 2016 roku jako system odznak dołączanych do artykułów publikowanych przez to towarzystwo. ACM oświadczyło, że jego definicje zostały zainspirowane słownictwem metrologicznym, i powiązało wykorzystanie cyfrowych artefaktów oryginalnego autora z „replikowalnością”, a tworzenie zupełnie nowych cyfrowych artefaktów z „odtwarzalnością”. Te terminologiczne rozróżnienia są sprzeczne z użyciem w naukach obliczeniowych, gdzie odtwarzalność jest związana z przejrzystością i dostępem do cyfrowych artefaktów autora, a także z naukami społecznymi, ekonomią, badaniami klinicznymi i innymi dziedzinami, gdzie badania replikacyjne zbierają nowe dane w celu weryfikacji oryginalnych ustaleń.

Niezależnie od użytych terminów, podstawowe koncepcje od dawna odgrywają zasadnicze role we wszystkich dyscyplinach naukowych. Pojęcia te są ściśle związane z następującymi ogólnymi pytaniami dotyczącymi wyników badań naukowych:

  • Czy dane i analiza są przedstawione na tyle przejrzyście i jasno, że wyniki mogą być sprawdzone?
  • Jeśli sprawdzone, to czy dane i analiza oferowane na poparcie wyniku faktycznie potwierdzają ten wynik?
  • Jeśli dane i analiza potwierdzają oryginalny wynik, to czy zgłoszony wynik może być ponownie znaleziony w badanym kontekście konkretnego badania?
  • Wreszcie, czy przedstawiony wynik lub wyciągnięty wniosek może być znaleziony ponownie w szerszym zestawie kontekstów badawczych?

Naukowcy komputerowi zazwyczaj używają terminu odtwarzalność, aby odpowiedzieć tylko na pierwsze pytanie – to znaczy, badania odtwarzalne to badania, które mogą być sprawdzone, ponieważ dane, kod i metody analizy są dostępne dla innych badaczy. Termin odtwarzalność może być również użyty w kontekście drugiego pytania: badania są odtwarzalne, jeśli inny badacz rzeczywiście używa dostępnych danych i kodu i uzyskuje te same wyniki. Różnica między pierwszym i drugim pytaniem dotyczy działania innego badacza; pierwsze odnosi się do dostępności danych, kodu i metod analizy, podczas gdy drugie odnosi się do aktu ponownego obliczenia wyników przy użyciu dostępnych danych, kodu i metod analizy.

Aby odpowiedzieć na pierwsze i drugie pytanie, drugi badacz używa danych i kodu od pierwszego; żadne nowe dane ani kod nie są tworzone przez drugiego badacza. Odtwarzalność zależy jedynie od tego, czy metody analizy obliczeniowej zostały przedstawione w sposób przejrzysty i dokładny oraz czy te dane, kod lub inne materiały zostały użyte do odtworzenia oryginalnych wyników. W przeciwieństwie do tego, aby odpowiedzieć na pytanie trzecie, badacz musi powtórzyć badanie, stosując jak najdokładniej oryginalne metody i zbierając nowe dane. Aby odpowiedzieć na pytanie czwarte, badacz może obrać różne drogi: wybrać nowe warunki analizy, przeprowadzić to samo badanie w nowym kontekście lub przeprowadzić nowe badanie ukierunkowane na to samo lub podobne pytanie badawcze.

Dla celów niniejszego raportu i w celu zdefiniowania tych terminów w sposób, który ma zastosowanie w wielu dyscyplinach naukowych, komitet postanowił wprowadzić rozróżnienie między odtwarzalnością a odtwarzalnością między drugim i trzecim pytaniem. Tak więc odtwarzalność obejmuje czynność polegającą na ponownym obliczeniu przez drugiego badacza oryginalnych wyników i może być spełniona poprzez dostępność danych, kodu i metod, które umożliwiają takie ponowne obliczenie. Ta definicja odtwarzalności odnosi się do przejrzystości i odtwarzalności obliczeń: to jest synonim „odtwarzalności obliczeniowej” i używamy tych terminów zamiennie w tym raporcie.

Gdy prowadzone jest nowe badanie i zbierane są nowe dane, mające na celu to samo lub podobne pytanie naukowe co poprzednie, definiujemy to jako replikację. Próba replikacji może być przeprowadzona przez tych samych badaczy w tym samym laboratorium w celu weryfikacji oryginalnego wyniku, lub może być przeprowadzona przez nowych badaczy w nowym laboratorium lub kontekście, przy użyciu tych samych lub innych metod i warunków analizy. Jeżeli to drugie badanie, ukierunkowane na to samo zagadnienie naukowe, ale gromadzące nowe dane, uzyskuje spójne wyniki lub może wyciągnąć spójne wnioski, badanie jest replikowalne. Jeśli drugie badanie bada podobne zagadnienie naukowe, ale w innych kontekstach lub populacjach, które różnią się od oryginalnego, i znajduje spójne wyniki, badanie jest „uogólnialne”.6

Podsumowując, po obszernym przeglądzie sposobów, w jakie te terminy są używane przez różne środowiska naukowe, komitet przyjął konkretne definicje dla tego raportu.

KONKLUZJA 3-1: Dla tego raportu, odtwarzalność to uzyskiwanie spójnych wyników przy użyciu tych samych danych wejściowych; kroków obliczeniowych, metod i kodu; oraz warunków analizy. Definicja ta jest synonimem „odtwarzalności obliczeniowej” i terminy te są używane zamiennie w niniejszym raporcie.

Replikalność to uzyskiwanie spójnych wyników w badaniach mających na celu udzielenie odpowiedzi na to samo pytanie naukowe, z których każde uzyskało swoje własne dane.

Dwa badania mogą być uznane za replikowane, jeśli uzyskują spójne wyniki, biorąc pod uwagę poziom niepewności nieodłącznie związany z badanym systemem. W badaniach, które mierzą jednostkę fizyczną (tj. wielkość mierzoną), wyniki mogą być zestawami pomiarów tej samej wielkości mierzonej, uzyskanymi przez różne laboratoria. W badaniach mających na celu wykrycie efektu zamierzonej interwencji lub zdarzenia naturalnego, wyniki mogą być rodzajem i wielkością efektów stwierdzonych w różnych badaniach mających na celu udzielenie odpowiedzi na to samo pytanie. Ogólnie rzecz biorąc, ilekroć uzyskuje się nowe dane, które stanowią wyniki badania mającego na celu udzielenie odpowiedzi na to samo pytanie naukowe co inne badanie, stopień spójności wyników z dwóch badań stanowi ich stopień replikacji.

Dwa ważne ograniczenia replikowalności wyników naukowych spoczywają w ograniczeniach precyzji pomiaru i możliwości zmienionych wyników z powodu czasami subtelnych różnic w metodach i krokach wykonywanych w badaniu naukowym. Wyraźnie rozważamy tutaj oba te ograniczenia, ponieważ każde z nich może mieć głęboki wpływ na replikowalność badań naukowych.

.