V-REVCOMP: detecção automática de alto rendimento de sequências de genes 16S rRNA complementares inversos em grandes conjuntos de dados ambientais e taxonómicos

Sequências de ADN complementares inversas – sequências que são inadvertidamente dadas ao contrário com todas as purinas e pirimidinas transpostas – podem afectar negativamente a análise de sequências, a menos que sejam tidas em conta. Apresentamos uma ferramenta de software de código aberto de alto rendimento -v-revcomp (http://www.cmde.science.ubc.ca/mohn/software.html) – para detectar e reorientar entradas complementares inversas do gene rRNA (16S) de pequenas subunidades a partir de conjuntos de dados sequenciais, particularmente de fontes ambientais. O software suporta comprimentos de seqüência que vão desde o comprimento total até as leituras curtas que são características das tecnologias de sequenciamento de próxima geração. Avaliamos a confiabilidade do v-revcomp através da triagem de todas as 406 781 sequências 16S depositadas na versão 102 do banco de dados SILVA curado e demonstramos que a ferramenta tem uma precisão de detecção de praticamente 100%. Posteriormente utilizamos o v-revcomp para analisar 1 171 646 seqüências 16S depositadas na Base de Dados Internacional de Seqüências Nucleotídeas e descobrimos que cerca de 1% dessas seqüências submetidas pelo usuário eram complementares inversamente. Além disso, uma proporção não trivial das entradas era anômala, incluindo quimeras complementares inversas, seqüências associadas a taxas erradas, genes nãoribossômicos, seqüências de má qualidade ou seqüências errôneas sem uma correspondência razoável com qualquer outra entrada na base de dados. Assim, o v-revcomp é altamente eficiente na detecção e reorientação de seqüências 16S complementares inversas de quase qualquer comprimento e pode ser usado para detectar várias anomalias de seqüência.