V-REVCOMP: detección automatizada de alto rendimiento de secuencias complementarias inversas del gen 16S rRNA en grandes conjuntos de datos ambientales y taxonómicos

Las secuencias complementarias inversas de ADN -secuencias que se dan inadvertidamente al revés con todas las purinas y pirimidinas transpuestas- pueden afectar al análisis de la secuencia de forma perjudicial a menos que se tengan en cuenta. Presentamos una herramienta de software de código abierto y alto rendimiento -v-revcomp (http://www.cmde.science.ubc.ca/mohn/software.html) – para detectar y reorientar las entradas complementarias inversas del gen de la subunidad pequeña del ARNr (16S) a partir de conjuntos de datos de secuenciación, particularmente de fuentes ambientales. El software admite longitudes de secuencia que van desde la longitud completa hasta las lecturas cortas que son características de las tecnologías de secuenciación de próxima generación. Evaluamos la fiabilidad de v-revcomp examinando las 406.781 secuencias 16S depositadas en la versión 102 de la base de datos curada SILVA y demostramos que la herramienta tiene una precisión de detección de prácticamente el 100%. Posteriormente, utilizamos v-revcomp para analizar 1 171 646 secuencias 16S depositadas en las bases de datos internacionales de secuencias de nucleótidos y descubrimos que aproximadamente el 1% de estas secuencias enviadas por los usuarios eran complementarias a la inversa. Además, una proporción no trivial de las entradas eran anómalas, incluyendo quimeras complementarias inversas, secuencias asociadas a taxones erróneos, genes no ribosómicos, secuencias de mala calidad o secuencias erróneas sin una correspondencia razonable con ninguna otra entrada de la base de datos. Así, v-revcomp es altamente eficiente en la detección y reorientación de secuencias 16S complementarias inversas de casi cualquier longitud y puede utilizarse para detectar diversas anomalías de secuencia.