V-REVCOMP : détection automatisée à haut débit des séquences complémentaires inversées du gène de l’ARNr 16S dans de grands ensembles de données environnementales et taxonomiques

Les séquences d’ADN complémentaires inversées – séquences données par inadvertance à l’envers avec toutes les purines et pyrimidines transposées – peuvent affecter l’analyse des séquences de manière préjudiciable si elles ne sont pas prises en compte. Nous présentons un outil logiciel à haut débit et à code source ouvert -v-revcomp (http://www.cmde.science.ubc.ca/mohn/software.html) – pour détecter et réorienter les entrées complémentaires inverses du gène de la petite sous-unité de l’ARNr (16S) à partir d’ensembles de données de séquençage, notamment de sources environnementales. Le logiciel prend en charge des longueurs de séquence allant de la pleine longueur jusqu’aux lectures courtes qui sont caractéristiques des technologies de séquençage de nouvelle génération. Nous avons évalué la fiabilité de v-revcomp en criblant les 406 781 séquences 16S déposées dans la version 102 de la base de données SILVA et démontré que l’outil a une précision de détection de pratiquement 100 %. Nous avons ensuite utilisé v-revcomp pour analyser 1 171 646 séquences 16S déposées dans les bases de données internationales sur les séquences de nucléotides et avons constaté qu’environ 1 % de ces séquences soumises par les utilisateurs étaient complémentaires inverses. En outre, une proportion non négligeable des entrées étaient autrement anormales, y compris des chimères complémentaires inverses, des séquences associées à des taxons erronés, des gènes non ribosomiques, des séquences de mauvaise qualité ou des séquences autrement erronées sans correspondance raisonnable avec une autre entrée de la base de données. Ainsi, v-revcomp est très efficace pour détecter et réorienter des séquences 16S complémentaires inverses de presque n’importe quelle longueur et peut être utilisé pour détecter diverses anomalies de séquence.