Bookshelf

DEFINING REPRODUCDUCIBILITY AND REPLICABILITY

Erilaiset tieteenalat ja instituutiot käyttävät sanoja uusittavuus ja toistettavuus epäjohdonmukaisesti tai jopa ristiriitaisesti: Mitä yksi ryhmä tarkoittaa yhdellä sanalla, toinen ryhmä tarkoittaa toisella sanalla.4 Näitä termejä – ja muita termejä, kuten toistettavuus – on pitkään käytetty suhteessa yleiseen käsitteeseen, jonka mukaan yksi koe tai tutkimus vahvistaa toisen kokeen tai tutkimuksen tulokset. Tämän yleisen käsitteen sisällä ei kuitenkaan ole syntynyt terminologisesti johdonmukaista tapaa tehdä eroa; sen sijaan ristiriitaisia ja epäjohdonmukaisia termejä on kukoistanut. Vaikeuksia toistettavuuden ja toistettavuuden arvioinnissa vaikeuttaa se, että näille termeille ei ole vakiomääritelmiä.

Joillakin aloilla yhtä termiä on käytetty kattamaan kaikki asiaan liittyvät käsitteet: esimerkiksi ”replikointi” on historiallisesti kattanut kaikki politiikkatieteeseen liittyvät kysymykset (King, 1995). Monissa yhteyksissä termeillä reproducible ja replicable on erilliset merkitykset, mutta eri yhteisöt ovat omaksuneet vastakkaisia määritelmiä (Claerbout ja Karrenbach, 1992; Peng et al., 2006; Association for Computing Machinery, 2018). Jotkut ovat lisänneet sanastoon kvalifioivia termejä, kuten menetelmien uusittavuus, tulosten uusittavuus ja inferenssien uusittavuus (Goodman ym., 2016). Erityisesti on syntynyt jännitteitä tietotekniikassa hiljattain omaksutun käytön ja sen tavan välillä, jolla muiden tieteenalojen tutkijat ovat jo vuosia kuvanneet näitä ajatuksia (Heroux et al., 2018).

1990-luvun alussa tutkijat alkoivat käyttää termiä ”toistettavissa oleva tutkimus” tutkimuksista, jotka tarjosivat täydellisen digitaalisen aineistokokoelman ja koodin analyysiensa toistamiseksi, erityisesti seismisten aaltotallenteiden käsittelyssä (Claerbout ja Karrenbach, 1992; Buckheit ja Donoho, 1995). Pääpaino oli sen varmistamisessa, että laskennallinen analyysi oli läpinäkyvä ja dokumentoitu niin, että muut tutkijat voivat tarkistaa sen. Vaikka tämä toistettavuuden käsite eroaa huomattavasti tilanteista, joissa tutkija kerää uusia tietoja siinä toivossa, että hän voi riippumattomasti todentaa aiemmat tulokset tai tieteellisen päätelmän, joillakin tieteenaloilla käytetään termiä toistettavuus tästä käytännöstä. Peng et al. (2006, s. 783) viittasivat tähän skenaarioon nimellä ”toistettavuus” ja totesivat: ”Tieteellinen näyttö vahvistuu, kun useat riippumattomat tutkijat toistavat tärkeät tulokset käyttämällä riippumattomia tietoja, analyysimenetelmiä, laboratorioita ja välineitä.” Vaikka näitä termejä on pyritty yhtenäistämään, eri tieteenaloilla vallitsee edelleen yksimielisyyden puute. Tästä johtuva sekaannus on esteenä etenemiselle uusittavuuden ja toistettavuuden parantamiseksi (Barba, 2018).

Barba (2018) hahmotteli termien uusittavuus ja toistettavuus käyttöä käsittelevässä katsausartikkelissaan kolme käyttöluokkaa, joita hän luonnehti A-, B1- ja B2-luokiksi:

  • A: Termejä käytetään erottelematta niitä toisistaan.
  • B1: ”Toistettavuudella” viitataan tapauksiin, joissa alkuperäisen tutkijan aineistoa ja tietokonekoodeja käytetään tulosten uusintamiseen, kun taas ”toistettavuudella” viitataan tapauksiin, joissa tutkija kerää uutta aineistoa päätyäkseen samoihin tieteellisiin tuloksiin kuin aiempi tutkimus.
  • B2: ”Uusittavuus” viittaa siihen, että riippumattomat tutkijat päätyvät samoihin tuloksiin käyttämällä omia aineistojaan ja menetelmiään, kun taas ”toistettavuus” viittaa siihen, että eri tutkimusryhmä päätyy samoihin tuloksiin käyttämällä alkuperäisen tekijän artefakteja.

B1 ja B2 ovat vastakkain sen suhteen, kumpaan termiin liittyy alkuperäisten tekijöiden digitaalisten tutkimusartefaktien uudelleenkäyttö (”tutkimuskompendium”) ja kumpaan itsenäisesti luodut digitaaliset artefaktit. Barba (2018) keräsi tietoja näiden termien käytöstä eri tieteenaloilla (ks. taulukko 3-1).5

TAULUKKO 3-1. Termien Reproducibility ja Replicability käyttö tieteenaloittain.

TAULUKKO 3-1

Usage of the Terms Reproducibility and Replicability by Scientific Discipline.

Computing Machinery -yhdistyksen (Association for Computing Machinery, ACM) käyttöön ottama terminologia tietojenkäsittelytieteelle julkaistiin vuonna 2016 järjestelmänä, jossa yhdistyksen julkaisemiin artikkeleihin liitetään merkkejä. ACM ilmoitti, että sen määritelmät ovat saaneet inspiraationsa metrologian sanastosta, ja se yhdisti alkuperäisen tekijän digitaalisten artefaktien käyttämisen ”toistettavuuteen” ja kokonaan uusien digitaalisten artefaktien kehittämisen ”toistettavuuteen”. Nämä terminologiset erottelut ovat ristiriidassa sen kanssa, mitä käytetään tietojenkäsittelytieteissä, joissa toistettavuus liitetään avoimuuteen ja tekijän digitaalisten artefaktien saatavuuteen, ja myös yhteiskuntatieteissä, taloustieteissä, kliinisissä tutkimuksissa ja muilla aloilla, joilla toistettavuustutkimuksissa kerätään uutta tietoa alkuperäisten havaintojen todentamiseksi.

Käytetyistä erityisistä termeistä riippumatta niiden taustalla olevilla konsepteilla on jo pitkään ollut olennainen rooli kaikilla tieteenaloilla. Nämä käsitteet liittyvät läheisesti seuraaviin tieteellisiä tuloksia koskeviin yleisiin kysymyksiin:

  • Ovatko tiedot ja analyysi esitetty riittävän läpinäkyvästi ja selkeästi, jotta tulokset voidaan tarkistaa?
  • Jos ne on tarkistettu, tukevatko tuloksen tueksi tarjotut tiedot ja analyysi todella kyseistä tulosta?
  • Jos tiedot ja analyysi osoitetaan tukevaksi alkuperäistä tulosta, voiko raportoitu tulos löytyä uudestaan nimenomaisessa tutkittavassa tutkimuskontekstissa?
  • Viimeiseksi, voidaanko raportoitu tulos tai tehty johtopäätös löytää uudelleen laajemmissa tutkimuskonteksteissa?

Laskentatieteilijät käyttävät yleensä termiä toistettavuus vastatakseen vain ensimmäiseen kysymykseen – toisin sanoen toistettavissa oleva tutkimus on sellaista tutkimusta, joka voidaan tarkastaa, koska aineisto, koodi ja analyysimenetelmät ovat muiden tutkijoiden saatavilla. Termiä toistettavuus voidaan käyttää myös toisen kysymyksen yhteydessä: tutkimus on toistettavissa, jos toinen tutkija todella käyttää saatavilla olevia tietoja ja koodia ja saa samat tulokset. Ensimmäisen ja toisen kysymyksen erona on toisen tutkijan toiminta; ensimmäisellä kysymyksellä viitataan datan, koodin ja analyysimenetelmien saatavuuteen, kun taas toisella kysymyksellä viitataan tekoon, jossa tulokset lasketaan uudelleen käyttäen saatavilla olevaa dataa, koodia ja analyysimenetelmiä.

Vastaakseen ensimmäiseen ja toiseen kysymykseen toinen tutkija käyttää ensimmäisen tutkijan dataa ja koodia; toinen tutkija ei luo uutta dataa tai koodia. Toistettavuus riippuu ainoastaan siitä, onko laskennallisen analyysin menetelmät raportoitu avoimesti ja tarkasti ja onko kyseistä dataa, koodia tai muuta materiaalia käytetty alkuperäisten tulosten toistamiseen. Kolmanteen kysymykseen vastaamiseksi tutkijan on sitä vastoin tehtävä tutkimus uudelleen, noudatettava alkuperäisiä menetelmiä mahdollisimman tarkasti ja kerättävä uusia tietoja. Neljänteen kysymykseen vastatakseen tutkija voi kulkea useita eri reittejä: valita uuden analyysiehdon, tehdä saman tutkimuksen uudessa yhteydessä tai tehdä uuden tutkimuksen, jonka tavoitteena on sama tai samankaltainen tutkimuskysymys.

Tässä mietinnössä ja tavoitteenaan määritellä nämä termit tavalla, jota voidaan soveltaa useilla tieteenaloilla, komitea on päättänyt tehdä eron toistettavuuden ja toistettavuuden välillä toisen ja kolmannen kysymyksen välillä. Toistettavuus käsittää siis sen, että toinen tutkija laskee alkuperäiset tulokset uudelleen, ja se voi täyttyä tietojen, koodin ja menetelmien saatavuudella, joka mahdollistaa tämän uudelleenlaskennan. Tämä uusittavuuden määritelmä viittaa laskelmien läpinäkyvyyteen ja toistettavuuteen: se on siis synonyymi ”laskennallisen uusittavuuden” kanssa, ja käytämme termejä tässä raportissa vaihdellen.

Kun tehdään uusi tutkimus ja kerätään uutta tietoa, jonka tavoitteena on sama tai samankaltainen tieteellinen kysymys kuin aikaisemmassa tutkimuksessa, määrittelemme sen toistoksi. Toistamisyrityksen voivat tehdä samat tutkijat samassa laboratoriossa alkuperäisen tuloksen todentamiseksi, tai sen voivat tehdä uudet tutkijat uudessa laboratoriossa tai uudessa yhteydessä käyttäen samoja tai erilaisia menetelmiä ja analyysiolosuhteita. Jos tässä toisessa tutkimuksessa, jonka tavoitteena on sama tieteellinen kysymys mutta jossa kerätään uusia tietoja, saadaan johdonmukaisia tuloksia tai voidaan tehdä johdonmukaisia johtopäätöksiä, tutkimus on toistettavissa. Jos toisessa tutkimuksessa tutkitaan samankaltaista tieteellistä kysymystä, mutta muissa yhteyksissä tai populaatioissa, jotka poikkeavat alkuperäisestä, ja saadaan johdonmukaisia tuloksia, tutkimus on ”yleistettävissä”.6

Yhteenvetona voidaan todeta, että sen jälkeen, kun komitea oli tarkastellut laajasti tapoja, joilla näitä termejä käytetään eri tiedeyhteisöissä, se on hyväksynyt erityiset määritelmät tätä mietintöä varten.6

TIIVISTELMÄ 3-1: Tässä mietintöön kuuluvassa raportissa uusittavuudella tarkoitetaan johdonmukaisten tulosten saamista käyttämällä samoja syöttöaineistoja, samoja tietojenkäsittelyvaiheita ja laskutoimituksia, laskutoimituksia, laskennallisia menetelmiä ja laskennallista koodia ja samojen analyysiolosuhteiden käyttöä. Tämä määritelmä on synonyymi ”laskennallisen toistettavuuden” kanssa, ja termejä käytetään tässä raportissa keskenään vaihdellen.

Koistettavuus tarkoittaa johdonmukaisten tulosten saamista tutkimuksissa, joiden tarkoituksena on vastata samaan tieteelliseen kysymykseen ja joista kukin on hankkinut omat tietonsa.

Kahden tutkimuksen voidaan katsoa olevan toistettuja, jos ne saavat johdonmukaisia tuloksia, kun otetaan huomioon tutkittavan järjestelmän epävarmuuden taso. Tutkimuksissa, joissa mitataan fysikaalista kokonaisuutta (ts. mitattavaa suureen), tulokset voivat olla eri laboratorioiden samasta mitattavasta suureesta saamia mittaussarjoja. Tutkimuksissa, joiden tarkoituksena on havaita tarkoituksellisen toimenpiteen tai luonnollisen tapahtuman vaikutus, tulokset voivat olla niiden vaikutusten tyyppi ja koko, jotka on havaittu eri tutkimuksissa, joiden tarkoituksena on vastata samaan kysymykseen. Yleisesti ottaen aina, kun saadaan uutta tietoa, joka on tulosta tutkimuksesta, jonka tarkoituksena on vastata samaan tieteelliseen kysymykseen kuin toisessa tutkimuksessa, näiden kahden tutkimuksen tulosten yhdenmukaisuuden aste muodostaa niiden toistettavuuden asteen.

Kaksi tärkeää tieteellisten tulosten toistettavuutta rajoittavaa tekijää ovat mittaustarkkuuden rajoitukset ja tieteellisessä tutkimuksessa suoritettujen menetelmien ja vaiheiden toisinaan hienovaraisesta vaihtelusta johtuvien tulosten mahdollinen muuttuminen. Tarkastelemme tässä nimenomaisesti molempia, koska niillä kummallakin voi olla suuri vaikutus tieteellisten tutkimusten toistettavuuteen.