Înțelegerea reproductibilității și replicabilității - Reproductibilitatea și replicabilitatea în știință - NCBI Bookshelf

august 23, 2021

DEFINIREA REPRODUCTIBILITĂȚII ȘI REPLICABILITĂȚII

Diferite discipline și instituții științifice folosesc cuvintele reproductibilitate și replicabilitate în moduri inconsistente sau chiar contradictorii: Ceea ce un grup înțelege printr-un cuvânt, celălalt grup înțelege prin celălalt cuvânt.4 Acești termeni – și alții, cum ar fi repetabilitatea – au fost utilizați de mult timp în legătură cu conceptul general de confirmare a rezultatelor unui experiment sau studiu de către un alt experiment sau studiu. Cu toate acestea, în cadrul acestui concept general, nu a apărut nicio modalitate terminologică coerentă de a face distincții; în schimb, au înflorit termeni contradictorii și inconsecvenți. Dificultățile de evaluare a reproductibilității și replicabilității sunt complicate de această absență de definiții standard pentru acești termeni.

În unele domenii, un singur termen a fost folosit pentru a acoperi toate conceptele conexe: de exemplu, „reproducere” a acoperit istoric toate preocupările din științele politice (King, 1995). În multe medii, termenii reproductibil și replicabil au înțelesuri distincte, dar diferite comunități au adoptat definiții opuse (Claerbout și Karrenbach, 1992; Peng et al., 2006; Association for Computing Machinery, 2018). Unii au adăugat în lexicon termeni calificativi, cum ar fi reproductibilitatea metodelor, reproductibilitatea rezultatelor și reproductibilitatea inferențială (Goodman et al., 2016). În special, a apărut o tensiune între utilizarea recent adoptată în informatică și modul în care cercetătorii din alte discipline științifice descriu aceste idei de ani de zile (Heroux et al., 2018).

La începutul anilor 1990, cercetătorii au început să folosească termenul de „cercetare reproductibilă” pentru studiile care au furnizat un compendiu digital complet de date și coduri pentru a-și reproduce analizele, în special în procesarea înregistrărilor de unde seismice (Claerbout și Karrenbach, 1992; Buckheit și Donoho, 1995). Accentul a fost pus pe asigurarea faptului că o analiză computațională era transparentă și documentată, astfel încât să poată fi verificată de alți cercetători. Deși această noțiune de reproductibilitate este destul de diferită de situațiile în care un cercetător culege noi date în speranța de a verifica independent rezultatele anterioare sau o deducție științifică, unele domenii științifice folosesc termenul de reproductibilitate pentru a se referi la această practică. Peng et al. (2006, p. 783) s-au referit la acest scenariu sub denumirea de „reproductibilitate”, menționând: „În acest sens, Peng et al: „Dovezile științifice sunt consolidate atunci când rezultatele importante sunt reproduse de mai mulți cercetători independenți care utilizează date, metode analitice, laboratoare și instrumente independente”. În ciuda eforturilor de coagulare în jurul utilizării acestor termeni, persistă lipsa de consens între discipline. Confuzia rezultată este un obstacol în avansarea spre îmbunătățirea reproductibilității și replicabilității (Barba, 2018).

Într-un document de analiză privind utilizarea termenilor reproductibilitate și replicabilitate, Barba (2018) a subliniat trei categorii de utilizare, pe care le-a caracterizat ca fiind A, B1 și B2:

A: Termenii sunt utilizați fără nicio distincție între ei.

B1: „Reproductibilitatea” se referă la cazurile în care datele și codurile informatice ale cercetătorului original sunt folosite pentru a regenera rezultatele, în timp ce „reproductibilitatea” se referă la cazurile în care un cercetător colectează noi date pentru a ajunge la aceleași concluzii științifice ca și un studiu anterior.

B2: „Reproductibilitatea” se referă la faptul că cercetători independenți ajung la aceleași rezultate folosind propriile date și metode, în timp ce „replicabilitatea” se referă la faptul că o altă echipă ajunge la aceleași rezultate folosind artefactele autorului original.

B1 și B2 sunt în opoziție una față de cealaltă în ceea ce privește termenul care implică reutilizarea artefactelor digitale de cercetare ale autorilor originali („compendiu de cercetare”) și care implică artefacte digitale create independent. Barba (2018) a colectat date cu privire la utilizarea acestor termeni într-o varietate de discipline (a se vedea tabelul 3-1).5

TABELUL 3-1

Utilizarea termenilor reproductibilitate și replicabilitate în funcție de disciplina științifică.

Terminologia adoptată de Association for Computing Machinery (ACM) pentru știința informaticii a fost publicată în 2016 sub forma unui sistem de insigne atașate articolelor publicate de societate. ACM a declarat că definițiile sale au fost inspirate de vocabularul metrologiei și a asociat utilizarea artefactelor digitale ale unui autor original cu „reproductibilitatea”, iar dezvoltarea de artefacte digitale complet noi cu „reproductibilitatea”. Aceste distincții terminologice contrazic utilizarea în științele computaționale, unde reproductibilitatea este asociată cu transparența și accesul la artefactele digitale ale autorului și, de asemenea, cu științele sociale, economia, studiile clinice și alte domenii, unde studiile de reproducere colectează noi date pentru a verifica constatările originale.

Indiferent de termenii specifici utilizați, conceptele care stau la baza acestora au jucat de mult timp roluri esențiale în toate disciplinele științifice. Aceste concepte sunt strâns legate de următoarele întrebări generale cu privire la rezultatele științifice:

Sunt datele și analizele prezentate cu suficientă transparență și claritate pentru ca rezultatele să poată fi verificate?
Dacă sunt verificate, datele și analizele oferite în sprijinul rezultatului susțin, de fapt, acel rezultat?
Dacă se demonstrează că datele și analizele susțin rezultatul original, rezultatul raportat poate fi regăsit în contextul specific al studiului investigat?
În cele din urmă, rezultatul raportat sau inferența trasă poate fi regăsită într-un set mai larg de contexte de studiu?

Specialiștii în științe computaționale folosesc, în general, termenul de reproductibilitate pentru a răspunde doar la prima întrebare – adică, cercetarea reproductibilă este o cercetare care poate fi verificată deoarece datele, codul și metodele de analiză sunt disponibile pentru alți cercetători. Termenul de reproductibilitate poate fi utilizat și în contextul celei de-a doua întrebări: cercetarea este reproductibilă dacă un alt cercetător utilizează efectiv datele și codul disponibile și obține aceleași rezultate. Diferența dintre prima și a doua întrebare este una de acțiune din partea unui alt cercetător; prima se referă la disponibilitatea datelor, codului și metodelor de analiză, în timp ce a doua se referă la actul de recalculare a rezultatelor folosind datele, codul și metodele de analiză disponibile.

Pentru a răspunde la prima și a doua întrebare, un al doilea cercetător folosește date și coduri de la primul; nu sunt create date sau coduri noi de către cel de-al doilea cercetător. Reproductibilitatea depinde doar de faptul dacă metodele de analiză computațională au fost raportate în mod transparent și precis și dacă acele date, coduri sau alte materiale au fost utilizate pentru a reproduce rezultatele originale. În schimb, pentru a răspunde la a treia întrebare, un cercetător trebuie să refacă studiul, urmând metodele originale cât mai îndeaproape posibil și colectând noi date. Pentru a răspunde la întrebarea a patra, un cercetător ar putea lua o varietate de căi: să aleagă o nouă condiție de analiză, să efectueze același studiu într-un nou context sau să efectueze un nou studiu care vizează aceeași întrebare de cercetare sau una similară.

În scopul acestui raport și cu scopul de a defini acești termeni în moduri care să se aplice în mai multe discipline științifice, comitetul a ales să facă distincția între reproductibilitate și replicabilitate între a doua și a treia întrebare. Astfel, reproductibilitatea include actul unui al doilea cercetător care recalculează rezultatele originale și poate fi satisfăcută cu disponibilitatea datelor, a codului și a metodelor care fac posibilă această recalculare. Această definiție a reproductibilității se referă la transparența și reproductibilitatea calculelor: adică este sinonimă cu „reproductibilitatea computațională”, iar noi folosim termenii în mod interschimbabil în acest raport.

Când se realizează un nou studiu și se colectează noi date, care vizează aceeași întrebare științifică sau o întrebare similară cu una anterioară, îl definim ca fiind o replicare. O încercare de replicare poate fi realizată de aceiași cercetători în același laborator pentru a verifica rezultatul inițial sau poate fi realizată de noi cercetători într-un nou laborator sau context, utilizând aceleași metode și condiții de analiză sau altele. În cazul în care acest al doilea studiu, care vizează aceeași întrebare științifică, dar care colectează date noi, găsește rezultate consecvente sau poate trage concluzii consecvente, cercetarea este reproductibilă. Dacă un al doilea studiu explorează o întrebare științifică similară, dar în alte contexte sau populații care diferă de cea inițială și găsește rezultate consecvente, cercetarea este „generalizabilă. „6

În rezumat, după o analiză amplă a modurilor în care acești termeni sunt utilizați de diferite comunități științifice, comitetul a adoptat definiții specifice pentru acest raport.

CONCLUZIE 3-1: Pentru acest raport, reproductibilitatea reprezintă obținerea de rezultate consecvente utilizând aceleași date de intrare; etape, metode și coduri de calcul; și condiții de analiză. Această definiție este sinonimă cu „reproductibilitatea computațională”, iar termenii sunt utilizați în mod interschimbabil în acest raport.

Replicabilitatea este obținerea unor rezultate consecvente între studii care vizează să răspundă la aceeași întrebare științifică, fiecare dintre acestea obținând propriile date.

Se poate considera că două studii s-au replicat dacă obțin rezultate consecvente, având în vedere nivelul de incertitudine inerent sistemului studiat. În studiile care măsoară o entitate fizică (adică un măsurand), rezultatele pot fi seturile de măsurători ale aceluiași măsurand obținute de laboratoare diferite. În studiile care vizează detectarea unui efect al unei intervenții intenționate sau al unui eveniment natural, rezultatele pot fi tipul și mărimea efectelor constatate în diferite studii care vizează să răspundă la aceeași întrebare. În general, ori de câte ori se obțin date noi care constituie rezultatele unui studiu care urmărește să răspundă la aceeași întrebare științifică ca și un alt studiu, gradul de consistență a rezultatelor celor două studii constituie gradul de replicare a acestora.

Două constrângeri importante asupra replicabilității rezultatelor științifice rezidă în limitele preciziei măsurătorilor și în potențialul de alterare a rezultatelor din cauza variației uneori subtile a metodelor și etapelor efectuate într-un studiu științific. Le luăm în considerare aici în mod expres pe amândouă, deoarece fiecare dintre ele poate avea o influență profundă asupra replicabilității studiilor științifice.

Savage Rose

Bookshelf

DEFINIREA REPRODUCTIBILITĂȚII ȘI REPLICABILITĂȚII

TABELUL 3-1

Lasă un răspuns Anulează răspunsul