Porozumění reprodukovatelnosti a replikovatelnosti - Reprodukovatelnost a replikovatelnost ve vědě - NCBI Bookshelf

23 srpna, 2021

DEFINICE REPRODUKOVATELNOSTI A REPLIKOVATELNOSTI

Různé vědní obory a instituce používají slova reprodukovatelnost a replikovatelnost nejednotným nebo dokonce protichůdným způsobem: Tyto pojmy – a další, například opakovatelnost – se již dlouho používají v souvislosti s obecným pojmem jednoho experimentu nebo studie, který potvrzuje výsledky jiného. V rámci tohoto obecného pojmu se však neobjevil žádný terminologicky konzistentní způsob rozlišování; místo toho se rozmohly protichůdné a nejednotné termíny. Obtíže při posuzování reprodukovatelnosti a replikovatelnosti jsou komplikovány touto absencí standardních definic těchto pojmů.

V některých oborech se jeden termín používal pro všechny související pojmy: například „replikace“ historicky pokrývala všechny problémy v politologii (King, 1995). V mnoha prostředích mají pojmy reprodukovatelný a replikovatelný odlišný význam, ale různé komunity přijaly opačné definice (Claerbout a Karrenbach, 1992; Peng et al., 2006; Association for Computing Machinery, 2018). Někteří přidali do lexikonu kvalifikující termíny, jako je reprodukovatelnost metod, reprodukovatelnost výsledků a inferenční reprodukovatelnost (Goodman et al., 2016). Zejména se objevilo napětí mezi použitím, které se nedávno ujalo v informatice, a způsobem, jakým výzkumníci v jiných vědních disciplínách tyto myšlenky popisují již léta (Heroux et al., 2018).

Na počátku 90. let 20. století začali badatelé používat termín „reprodukovatelný výzkum“ pro studie, které poskytly kompletní digitální sborník dat a kódu pro reprodukci svých analýz, zejména při zpracování záznamů seismických vln (Claerbout a Karrenbach, 1992; Buckheit a Donoho, 1995). Důraz byl kladen na to, aby výpočetní analýza byla transparentní a zdokumentovaná tak, aby ji mohli ověřit další výzkumníci. Ačkoli se toto pojetí reprodukovatelnosti značně liší od situací, kdy výzkumník shromažďuje nová data v naději, že nezávisle ověří předchozí výsledky nebo vědecký závěr, některé vědní obory používají pro tento postup termín reprodukovatelnost. Peng et al. (2006, s. 783) označují tento scénář jako „replikovatelnost“, přičemž poznamenávají: „Replikovatelnost se nazývá „reprodukovatelnost“: „Vědecké důkazy jsou posíleny, když jsou důležité výsledky replikovány více nezávislými badateli za použití nezávislých dat, analytických metod, laboratoří a přístrojů.“ Navzdory snahám o sjednocení používání těchto termínů přetrvává napříč obory nedostatek shody. Výsledný zmatek je překážkou v postupu vpřed za účelem zlepšení reprodukovatelnosti a replikovatelnosti (Barba, 2018).

V přehledovém článku o používání termínů reprodukovatelnost a replikovatelnost Barba (2018) nastínila tři kategorie používání, které charakterizovala jako A, B1 a B2:

A: Termíny se používají bez rozlišení mezi nimi.

B1: „Reprodukovatelnost“ se vztahuje na případy, kdy jsou původní data a počítačové kódy výzkumníka použity k regeneraci výsledků, zatímco „replikovatelnost“ se vztahuje na případy, kdy výzkumník shromažďuje nová data, aby dospěl ke stejným vědeckým zjištěním jako předchozí studie.

B2: „Reprodukovatelnost“ se týká nezávislých výzkumníků, kteří dospějí ke stejným výsledkům za použití vlastních dat a metod, zatímco „replikovatelnost“ se týká jiného týmu, který dospěje ke stejným výsledkům za použití artefaktů původního autora.

B1 a B2 jsou ve vzájemném protikladu s ohledem na to, který termín zahrnuje opětovné použití digitálních artefaktů výzkumu původních autorů („výzkumné kompendium“) a který zahrnuje nezávisle vytvořené digitální artefakty. Barba (2018) shromáždil údaje o používání těchto termínů v různých oborech (viz tabulka 3-1).5

TABULKA 3-1

Užívání termínů reprodukovatelnost a replikovatelnost podle vědních disciplín.

Terminologie přijatá Asociací pro výpočetní techniku (ACM) pro informatiku byla zveřejněna v roce 2016 jako systém odznaků připojovaných k článkům publikovaným touto společností. ACM prohlásila, že její definice byly inspirovány metrologickým slovníkem, a použití původních digitálních artefaktů autora spojila s „replikovatelností“ a vývoj zcela nových digitálních artefaktů s „reprodukovatelností“. Tato terminologická rozlišení jsou v rozporu s používáním ve výpočetní vědě, kde je reprodukovatelnost spojována s transparentností a přístupem k digitálním artefaktům autora, a také se společenskými vědami, ekonomií, klinickými studiemi a dalšími oblastmi, kde replikační studie shromažďují nová data k ověření původních zjištění.

Bez ohledu na konkrétní používané termíny hrají základní pojmy již dlouho zásadní roli ve všech vědních disciplínách. Tyto pojmy úzce souvisejí s následujícími obecnými otázkami týkajícími se vědeckých výsledků:

Jsou údaje a analýza vyloženy dostatečně transparentně a jasně, aby bylo možné výsledky zkontrolovat?
Jsou-li zkontrolovány, podporují údaje a analýza nabízené na podporu výsledku skutečně tento výsledek?
Pokud se ukáže, že údaje a analýza podporují původní výsledek, lze uváděný výsledek nalézt znovu ve zkoumaném kontextu konkrétní studie?
A konečně, lze uváděný výsledek nebo vyvozený závěr znovu nalézt v širším souboru studijních kontextů?

Vědci zabývající se výpočetní technikou obvykle používají termín reprodukovatelnost k zodpovězení pouze první otázky – to znamená, že reprodukovatelný výzkum je výzkum, který je možné zkontrolovat, protože data, kód a metody analýzy jsou k dispozici jiným výzkumníkům. Termín reprodukovatelnost lze použít i v kontextu druhé otázky: výzkum je reprodukovatelný, pokud jiný výzkumník skutečně použije dostupná data a kód a získá stejné výsledky. Rozdíl mezi první a druhou otázkou spočívá v činnosti jiného výzkumníka; první otázka se týká dostupnosti dat, kódu a metod analýzy, zatímco druhá otázka se týká aktu přepočítání výsledků s použitím dostupných dat, kódu a metod analýzy.

Pro zodpovězení první a druhé otázky používá druhý výzkumník data a kód od prvního výzkumníka; druhý výzkumník nevytváří žádná nová data ani kód. Reprodukovatelnost závisí pouze na tom, zda byly transparentně a přesně uvedeny metody výpočetní analýzy a zda tato data, kód nebo jiné materiály byly použity k reprodukci původních výsledků. Naproti tomu pro zodpovězení třetí otázky musí výzkumník studii zopakovat, přičemž musí co nejpřesněji dodržet původní metody a shromáždit nová data. Pro zodpovězení čtvrté otázky může výzkumník zvolit různé cesty: zvolit nové podmínky analýzy, provést stejnou studii v novém kontextu nebo provést novou studii zaměřenou na stejnou nebo podobnou výzkumnou otázku.

Pro účely této zprávy a s cílem definovat tyto pojmy způsobem, který je použitelný ve více vědních oborech, se výbor rozhodl rozlišovat mezi reprodukovatelností a replikovatelností mezi druhou a třetí otázkou. Reprodukovatelnost tedy zahrnuje akt přepočítání původních výsledků druhým výzkumníkem a může být splněna dostupností dat, kódu a metod, které toto přepočítání umožňují. Tato definice reprodukovatelnosti se týká transparentnosti a reprodukovatelnosti výpočtů: to znamená, že je synonymem pro „výpočetní reprodukovatelnost“ a v této zprávě používáme oba termíny zaměnitelně.

Pokud je provedena nová studie a shromážděna nová data zaměřená na stejnou nebo podobnou vědeckou otázku jako předchozí studie, definujeme ji jako replikaci. Pokus o replikaci mohou provádět stejní řešitelé ve stejné laboratoři s cílem ověřit původní výsledek, nebo jej mohou provádět noví řešitelé v nové laboratoři či kontextu za použití stejných či jiných metod a podmínek analýzy. Pokud tato druhá studie zaměřená na stejnou vědeckou otázku, ale shromažďující nové údaje, zjistí konzistentní výsledky nebo může vyvodit konzistentní závěry, je výzkum replikovatelný. Pokud druhá studie zkoumá podobnou vědeckou otázku, ale v jiných souvislostech nebo u jiných populací, které se liší od původní studie, a zjistí konzistentní výsledky, je výzkum „zobecnitelný“.6

Po rozsáhlém přezkoumání způsobů, jakými tyto pojmy používají různé vědecké komunity, přijal výbor pro tuto zprávu specifické definice.6

ZÁVĚR 3-1: Pro tuto zprávu je reprodukovatelnost získání konzistentních výsledků za použití stejných vstupních dat; výpočetních kroků, metod a kódu a podmínek analýzy. Tato definice je synonymem pro „výpočetní reprodukovatelnost“ a tyto termíny jsou v této zprávě používány zaměnitelně.

Replikovatelnost je získání konzistentních výsledků napříč studiemi zaměřenými na zodpovězení stejné vědecké otázky, z nichž každá získala své vlastní údaje.

Dvě studie lze považovat za replikované, pokud získají konzistentní výsledky vzhledem k úrovni nejistoty vlastní studovanému systému. Ve studiích, které měří fyzikální entitu (tj. měřenou veličinu), mohou být výsledky soubory měření téže měřené veličiny získané různými laboratořemi. Ve studiích zaměřených na zjišťování účinku záměrného zásahu nebo přírodní události mohou být výsledky typem a velikostí účinků zjištěných v různých studiích zaměřených na zodpovězení stejné otázky. Obecně platí, že kdykoli jsou získány nové údaje, které představují výsledky studie zaměřené na zodpovězení stejné vědecké otázky jako jiná studie, stupeň shody výsledků obou studií představuje stupeň jejich replikovatelnosti.

Dvě důležitá omezení replikovatelnosti vědeckých výsledků spočívají v omezeních přesnosti měření a možnosti změny výsledků v důsledku někdy nepatrných rozdílů v metodách a krocích prováděných ve vědecké studii. Oběma se zde výslovně věnujeme, protože každá z nich může mít zásadní vliv na replikovatelnost vědeckých studií

Savage Rose

Bookshelf

DEFINICE REPRODUKOVATELNOSTI A REPLIKOVATELNOSTI

TABULKA 3-1

Napsat komentář Zrušit odpověď na komentář