Definiendo la Reproducibilidad y la Replicabilidad
Diferentes disciplinas e instituciones científicas utilizan las palabras reproducibilidad y replicabilidad de manera inconsistente o incluso contradictoria: Lo que un grupo entiende por una palabra, el otro grupo lo entiende por la otra.4 Estos términos -y otros, como repetibilidad- se han utilizado durante mucho tiempo en relación con el concepto general de que un experimento o estudio confirma los resultados de otro. Sin embargo, dentro de este concepto general no ha surgido ninguna forma terminológica coherente de establecer distinciones, sino que han florecido términos contradictorios e incoherentes. Las dificultades a la hora de evaluar la reproducibilidad y la replicabilidad se complican por esta ausencia de definiciones estándar para estos términos.
En algunos campos, se ha utilizado un término para cubrir todos los conceptos relacionados: por ejemplo, «replicación» cubría históricamente todas las preocupaciones en ciencias políticas (King, 1995). En muchos entornos, los términos reproducible y replicable tienen significados distintos, pero diferentes comunidades adoptaron definiciones opuestas (Claerbout y Karrenbach, 1992; Peng et al., 2006; Association for Computing Machinery, 2018). Algunos han añadido al léxico términos calificativos, como reproducibilidad de métodos, reproducibilidad de resultados y reproducibilidad inferencial (Goodman et al., 2016). En particular, ha surgido una tensión entre el uso adoptado recientemente en las ciencias de la computación y la forma en que los investigadores de otras disciplinas científicas han descrito estas ideas durante años (Heroux et al., 2018).
A principios de la década de 1990, los investigadores comenzaron a utilizar el término «investigación reproducible» para los estudios que proporcionaban un compendio digital completo de datos y código para reproducir sus análisis, en particular en el procesamiento de grabaciones de ondas sísmicas (Claerbout y Karrenbach, 1992; Buckheit y Donoho, 1995). Se hacía hincapié en garantizar que un análisis computacional fuera transparente y estuviera documentado para que pudiera ser verificado por otros investigadores. Aunque esta noción de reproducibilidad es bastante diferente de las situaciones en las que un investigador reúne nuevos datos con la esperanza de verificar de forma independiente resultados anteriores o una inferencia científica, algunos campos científicos utilizan el término reproducibilidad para referirse a esta práctica. Peng et al. (2006, p. 783) se refirieron a este escenario como «replicabilidad», señalando: «La evidencia científica se refuerza cuando los resultados importantes son replicados por múltiples investigadores independientes utilizando datos, métodos analíticos, laboratorios e instrumentos independientes». A pesar de los esfuerzos por unificar el uso de estos términos, la falta de consenso persiste en todas las disciplinas. La confusión resultante es un obstáculo para avanzar en la mejora de la reproducibilidad y la replicabilidad (Barba, 2018).
En un artículo de revisión sobre el uso de los términos reproducibilidad y replicabilidad, Barba (2018) esbozó tres categorías de uso, que caracterizó como A, B1 y B2:
A: Los términos se utilizan sin distinción entre ellos. B1: La «reproducibilidad» se refiere a los casos en los que los datos y los códigos informáticos del investigador original se utilizan para regenerar los resultados, mientras que la «replicabilidad» se refiere a los casos en los que un investigador recoge nuevos datos para llegar a los mismos resultados científicos que un estudio anterior. B2: La «reproducibilidad» se refiere a los investigadores independientes que llegan a los mismos resultados utilizando sus propios datos y métodos, mientras que la «replicabilidad» se refiere a un equipo diferente que llega a los mismos resultados utilizando los artefactos del autor original.
B1 y B2 se oponen entre sí con respecto a qué término implica la reutilización de los artefactos digitales de investigación de los autores originales («compendio de investigación») y cuál implica artefactos digitales creados independientemente. Barba (2018) recopiló datos sobre el uso de estos términos en diversas disciplinas (véase la Tabla 3-1).5
TABLA 3-1
Uso de los términos reproducibilidad y replicabilidad por disciplina científica.
La terminología adoptada por la Association for Computing Machinery (ACM) para las ciencias de la computación fue publicada en 2016 como un sistema de distintivos adjuntos a los artículos publicados por la sociedad. La ACM declaró que sus definiciones se inspiraron en el vocabulario de la metrología, y asoció el uso de los artefactos digitales de un autor original a la «replicabilidad», y el desarrollo de artefactos digitales completamente nuevos a la «reproducibilidad.» Estas distinciones terminológicas contradicen el uso en la ciencia computacional, donde la reproducibilidad se asocia con la transparencia y el acceso a los artefactos digitales del autor, y también con las ciencias sociales, la economía, los estudios clínicos y otros dominios, donde los estudios de replicación recogen nuevos datos para verificar los hallazgos originales.
Independientemente de los términos específicos utilizados, los conceptos subyacentes han desempeñado durante mucho tiempo papeles esenciales en todas las disciplinas científicas. Estos conceptos están estrechamente relacionados con las siguientes cuestiones generales sobre los resultados científicos:
-
¿Se exponen los datos y el análisis con la suficiente transparencia y claridad como para que los resultados puedan comprobarse?
-
Si se comprueban, ¿los datos y el análisis ofrecidos en apoyo del resultado respaldan de hecho ese resultado?
-
Si se demuestra que los datos y el análisis respaldan el resultado original, ¿puede encontrarse de nuevo el resultado comunicado en el contexto de estudio específico investigado?
-
Por último, ¿puede el resultado reportado o la inferencia extraída encontrarse de nuevo en un conjunto más amplio de contextos de estudio?
Los científicos computacionales generalmente utilizan el término reproducibilidad para responder sólo a la primera pregunta, es decir, la investigación reproducible es la investigación que es capaz de ser comprobada porque los datos, el código y los métodos de análisis están disponibles para otros investigadores. El término reproducibilidad también puede utilizarse en el contexto de la segunda pregunta: la investigación es reproducible si otro investigador utiliza realmente los datos y el código disponibles y obtiene los mismos resultados. La diferencia entre la primera y la segunda pregunta es la acción de otro investigador; la primera se refiere a la disponibilidad de los datos, el código y los métodos de análisis, mientras que la segunda se refiere al acto de volver a calcular los resultados utilizando los datos, el código y los métodos de análisis disponibles.
Para responder a la primera y a la segunda pregunta, un segundo investigador utiliza los datos y el código del primero; el segundo investigador no crea nuevos datos ni códigos. La reproducibilidad sólo depende de si los métodos del análisis computacional se comunicaron de forma transparente y precisa y de si esos datos, código u otros materiales se utilizaron para reproducir los resultados originales. En cambio, para responder a la tercera pregunta, un investigador debe volver a realizar el estudio, siguiendo los métodos originales lo más fielmente posible y recogiendo nuevos datos. Para responder a la cuarta pregunta, un investigador podría tomar varios caminos: elegir una nueva condición de análisis, llevar a cabo el mismo estudio en un nuevo contexto o realizar un nuevo estudio dirigido a la misma pregunta de investigación o a una similar.
Para los fines de este informe y con el objetivo de definir estos términos de manera que se apliquen en múltiples disciplinas científicas, el comité ha optado por establecer la distinción entre reproducibilidad y replicabilidad entre la segunda y la tercera pregunta. Así, la reproducibilidad incluye el acto de que un segundo investigador vuelva a calcular los resultados originales, y puede satisfacerse con la disponibilidad de los datos, el código y los métodos que hacen posible ese nuevo cálculo. Esta definición de reproducibilidad se refiere a la transparencia y reproducibilidad de los cálculos: es decir, es sinónimo de «reproducibilidad computacional», y utilizamos los términos indistintamente en este informe.
Cuando se lleva a cabo un nuevo estudio y se recogen nuevos datos, dirigidos a la misma pregunta científica o a una similar a la anterior, lo definimos como una réplica. Un intento de réplica puede ser realizado por los mismos investigadores en el mismo laboratorio para verificar el resultado original, o puede ser realizado por nuevos investigadores en un nuevo laboratorio o contexto, utilizando los mismos o diferentes métodos y condiciones de análisis. Si este segundo estudio, dirigido a la misma cuestión científica pero que recoge nuevos datos, encuentra resultados coherentes o puede sacar conclusiones coherentes, la investigación es replicable. Si un segundo estudio explora una cuestión científica similar pero en otros contextos o poblaciones que difieren de la original y encuentra resultados consistentes, la investigación es «generalizable».6
En resumen, después de una amplia revisión de las formas en que estos términos son utilizados por diferentes comunidades científicas, el comité adoptó definiciones específicas para este informe.
CONCLUSIÓN 3-1: Para este informe, la reproducibilidad es la obtención de resultados consistentes utilizando los mismos datos de entrada; pasos computacionales, métodos y código; y condiciones de análisis. Esta definición es sinónimo de «reproducibilidad computacional», y los términos se utilizan indistintamente en este informe.
La reproducibilidad es la obtención de resultados consistentes a través de estudios destinados a responder a la misma pregunta científica, cada uno de los cuales ha obtenido sus propios datos.
Se puede considerar que dos estudios se han replicado si obtienen resultados consistentes dado el nivel de incertidumbre inherente al sistema en estudio. En los estudios que miden una entidad física (es decir, un mensurando), los resultados pueden ser los conjuntos de mediciones del mismo mensurando obtenidos por diferentes laboratorios. En los estudios destinados a detectar un efecto de una intervención intencionada o de un acontecimiento natural, los resultados pueden ser el tipo y el tamaño de los efectos encontrados en diferentes estudios destinados a responder a la misma pregunta. En general, siempre que se obtienen nuevos datos que constituyen los resultados de un estudio destinado a responder a la misma pregunta científica que otro estudio, el grado de consistencia de los resultados de los dos estudios constituye su grado de replicación.
Dos importantes restricciones a la replicabilidad de los resultados científicos residen en los límites de la precisión de las mediciones y en la posibilidad de que se alteren los resultados debido a la variación, a veces sutil, de los métodos y pasos realizados en un estudio científico. Aquí consideramos expresamente ambos, ya que cada uno puede tener una profunda influencia en la replicabilidad de los estudios científicos.