Definindo REPRODUBILIDADE E REPLICABILIDADE
Diferentes disciplinas e instituições científicas usam as palavras reprodutibilidade e replicabilidade de maneiras inconsistentes ou mesmo contraditórias: O que um grupo significa por uma palavra, o outro grupo significa pela outra palavra.4 Estes termos – e outros, como repetibilidade – têm sido usados há muito tempo em relação ao conceito geral de um experimento ou estudo confirmando os resultados de outro. Dentro deste conceito geral, no entanto, não surgiu nenhuma forma terminologicamente consistente de fazer distinções; ao invés disso, os termos conflitantes e inconsistentes floresceram. As dificuldades na avaliação da reprodutibilidade e reprodutibilidade são complicadas por essa ausência de definições padrão para esses termos.
Em alguns campos, um termo tem sido usado para cobrir todos os conceitos relacionados: por exemplo, “replicação” cobriu historicamente todas as preocupações em ciência política (King, 1995). Em muitos contextos, os termos reproduzíveis e replicáveis têm significados distintos, mas diferentes comunidades adotaram definições opostas (Claerbout e Karrenbach, 1992; Peng et al., 2006; Association for Computing Machinery, 2018). Alguns adicionaram termos qualificadores, tais como reprodutibilidade de métodos, reprodutibilidade de resultados e reprodutibilidade inferencial ao léxico (Goodman et al., 2016). Em particular, surgiu tensão entre o uso recentemente adotado na ciência da computação e a forma como pesquisadores de outras disciplinas científicas descreveram essas idéias por anos (Heroux et al., 2018).
No início dos anos 90, os pesquisadores começaram a usar o termo “pesquisa reprodutível” para estudos que forneceram um compêndio digital completo de dados e código para reproduzir suas análises, particularmente no processamento de gravações de ondas sísmicas (Claerbout e Karrenbach, 1992; Buckheit e Donoho, 1995). A ênfase foi em assegurar que uma análise computacional fosse transparente e documentada para que pudesse ser verificada por outros pesquisadores. Embora esta noção de reprodutibilidade seja bastante diferente das situações em que um pesquisador reúne novos dados na esperança de verificar independentemente resultados anteriores ou uma inferência científica, alguns campos científicos usam o termo reprodutibilidade para se referir a esta prática. Peng et al. (2006, p. 783) se referem a este cenário como “reprodutibilidade”, observando: “A evidência científica é reforçada quando resultados importantes são replicados por múltiplos investigadores independentes usando dados, métodos analíticos, laboratórios e instrumentos independentes”. Apesar dos esforços para se unir em torno do uso desses termos, persiste a falta de consenso entre as disciplinas. A confusão resultante é um obstáculo no avanço para melhorar a reprodutibilidade e replicabilidade (Barba, 2018).
Num artigo de revisão sobre o uso dos termos reprodutibilidade e replicabilidade, Barba (2018) delineou três categorias de uso, que ela caracterizou como A, B1 e B2:
A: Os termos são usados sem distinção entre eles. B1: “Reprodutibilidade” refere-se a instâncias em que os dados do pesquisador original e códigos de computador são usados para regenerar os resultados, enquanto “replicabilidade” refere-se a instâncias em que um pesquisador coleta novos dados para chegar aos mesmos achados científicos de um estudo anterior. B2: “Reprodutibilidade” refere-se a pesquisadores independentes que chegam aos mesmos resultados usando seus próprios dados e métodos, enquanto “replicabilidade” refere-se a uma equipe diferente que chega aos mesmos resultados usando os artefatos do autor original.
B1 e B2 estão em oposição um ao outro com respeito ao termo que envolve a reutilização dos artefatos digitais de pesquisa dos autores originais (“compêndio de pesquisa”) e que envolve artefatos digitais criados independentemente. Barba (2018) coletou dados sobre o uso desses termos em várias disciplinas (ver Tabela 3-1).5
TÁBULO 3-1
Utilização dos Termos Reprodutibilidade e Replicabilidade por Disciplina Científica.
A terminologia adotada pela Associação de Máquinas de Computação (ACM) para informática foi publicada em 2016 como um sistema de crachás anexados a artigos publicados pela sociedade. A ACM declarou que suas definições foram inspiradas pelo vocabulário da metrologia, e associou o uso de artefatos digitais de um autor original à “reprodutibilidade”, e o desenvolvimento de artefatos digitais completamente novos à “reprodutibilidade”. Essas distinções terminológicas contradizem o uso em ciências computacionais, onde a reprodutibilidade está associada à transparência e acesso aos artefatos digitais do autor, e também às ciências sociais, economia, estudos clínicos e outros domínios, onde estudos de replicação coletam novos dados para verificar os achados originais.
Independentemente dos termos específicos utilizados, os conceitos subjacentes há muito desempenham papéis essenciais em todas as disciplinas científicas. Esses conceitos estão intimamente ligados às seguintes questões gerais sobre resultados científicos:
-
Os dados e as análises são apresentados com transparência e clareza suficientes para que os resultados possam ser verificados?
-
Se verificados, os dados e as análises oferecidos em apoio ao resultado de fato suportam esse resultado?
-
Se os dados e as análises são apresentados em apoio ao resultado original, o resultado relatado pode ser encontrado novamente no contexto específico do estudo investigado?
-
Finalmente, o resultado relatado ou a inferência desenhada pode ser encontrado novamente em um conjunto mais amplo de contextos de estudo?
Os cientistas computacionais geralmente usam o termo reprodutibilidade para responder apenas a primeira pergunta – ou seja, pesquisa reproduzível é pesquisa capaz de ser verificada porque os dados, código e métodos de análise estão disponíveis para outros pesquisadores. O termo reprodutibilidade também pode ser usado no contexto da segunda questão: pesquisa é reprodutível se outro pesquisador realmente usar os dados e código disponíveis e obtiver os mesmos resultados. A diferença entre a primeira e a segunda questão é uma de ação de outro pesquisador; a primeira refere-se à disponibilidade dos dados, código e métodos de análise, enquanto a segunda refere-se ao ato de recompilar os resultados usando os dados, código e métodos de análise disponíveis.
Para responder à primeira e segunda questões, um segundo pesquisador usa dados e código da primeira; nenhum novo dado ou código é criado pelo segundo pesquisador. A reprodutibilidade depende apenas de se os métodos de análise computacional foram relatados de forma transparente e precisa e se esses dados, código ou outros materiais foram usados para reproduzir os resultados originais. Em contraste, para responder à questão três, um pesquisador deve refazer o estudo, seguindo os métodos originais o mais próximo possível e coletando novos dados. Para responder à questão quatro, um pesquisador poderia tomar uma variedade de caminhos: escolher uma nova condição de análise, conduzir o mesmo estudo em um novo contexto, ou conduzir um novo estudo visando a mesma questão de pesquisa ou questão semelhante.
Para os propósitos deste relatório e com o objetivo de definir estes termos de maneiras que se apliquem a múltiplas disciplinas científicas, o comitê optou por fazer a distinção entre reprodutibilidade e reprodutibilidade entre a segunda e a terceira questões. Assim, a reprodutibilidade inclui o ato de um segundo pesquisador recompilar os resultados originais, e pode ser satisfeita com a disponibilidade de dados, código e métodos que tornam possível essa recompilação. Esta definição de reprodutibilidade refere-se à transparência e reprodutibilidade dos cálculos: ou seja, é sinônimo de “reprodutibilidade computacional”, e usamos os termos intercambiáveis neste relatório.
Quando um novo estudo é realizado e novos dados são coletados, visando a mesma questão científica ou uma questão científica semelhante a uma anterior, nós a definimos como uma replicação. Uma tentativa de replicação pode ser realizada pelos mesmos investigadores no mesmo laboratório para verificar o resultado original, ou pode ser realizada por novos investigadores num novo laboratório ou contexto, usando os mesmos métodos e condições de análise ou diferentes. Se este segundo estudo, visando a mesma questão científica, mas coletando novos dados, encontrar resultados consistentes ou puder tirar conclusões consistentes, a pesquisa é replicável. Se um segundo estudo explorar uma questão científica semelhante, mas em outros contextos ou populações diferentes da original e encontrar resultados consistentes, a pesquisa é “generalizável “6
Em resumo, após extensa revisão das formas como estes termos são usados por diferentes comunidades científicas, o comitê adotou definições específicas para este relatório.
CONCLUSÃO 3-1: Para este relatório, reprodutibilidade é obter resultados consistentes usando os mesmos dados de entrada; etapas computacionais, métodos e código; e condições de análise. Esta definição é sinônimo de “reprodutibilidade computacional” e os termos são utilizados de forma intercambiável neste relatório.
Replicabilidade é obter resultados consistentes entre estudos que visam responder à mesma questão científica, cada um dos quais obteve seus próprios dados.
Dois estudos podem ser considerados replicados se obtiverem resultados consistentes, dado o nível de incerteza inerente ao sistema em estudo. Em estudos que medem uma entidade física (ou seja, uma mensuranda), os resultados podem ser os conjuntos de medidas da mesma mensuranda obtidos por laboratórios diferentes. Em estudos que visam detectar um efeito de uma intervenção intencional ou um evento natural, os resultados podem ser o tipo e a dimensão dos efeitos encontrados em diferentes estudos que visam responder à mesma questão. Em geral, sempre que novos dados são obtidos que constituem os resultados de um estudo destinado a responder à mesma questão científica que outro estudo, o grau de consistência dos resultados dos dois estudos constitui o seu grau de replicação.
Duas importantes restrições à replicabilidade dos resultados científicos repousam nos limites da precisão da medição e do potencial de alteração dos resultados devido à variação, por vezes subtil, dos métodos e das etapas realizadas num estudo científico. Consideramos expressamente ambos aqui, pois cada um deles pode ter uma influência profunda na reprodutibilidade dos estudos científicos.