V-REVCOMP: automatiserad högflödesdetektering av omvänt komplementära 16S rRNA-gensekvenser i stora miljö- och taxonomiska datamängder

Omvänt komplementära DNA-sekvenser – sekvenser som oavsiktligt ges baklänges med alla puriner och pyrimidiner omplacerade – kan påverka sekvensanalysen negativt om de inte tas i beaktande. Vi presenterar ett programvaruverktyg med öppen källkod och hög genomströmning -v-revcomp (http://www.cmde.science.ubc.ca/mohn/software.html) – för att upptäcka och omorientera omvända komplementära poster av genen för den lilla underenheten rRNA (16S) från sekvenseringsdataset, särskilt från miljökällor. Programvaran stöder sekvenslängder som sträcker sig från full längd ner till de korta läsningar som är karakteristiska för nästa generations sekvenseringsteknik. Vi utvärderade v-revcomps tillförlitlighet genom att screena alla 406 781 16S-sekvenser som deponerats i version 102 av den kurerade SILVA-databasen och visade att verktyget har en detektionsnoggrannhet på praktiskt taget 100 %. Vi använde därefter v-revcomp för att analysera 1 171 646 16S-sekvenser som deponerats i International Nucleotide Sequence Databases och fann att cirka 1 % av dessa sekvenser som lämnats in av användare var omvänt komplementära. Dessutom var en icke trivial andel av posterna på annat sätt avvikande, inklusive omvänt komplementära chimärer, sekvenser associerade med felaktiga taxa, icke-ribosomala gener, sekvenser av dålig kvalitet eller på annat sätt felaktiga sekvenser utan en rimlig matchning med någon annan post i databasen. v-revcomp är således mycket effektivt när det gäller att upptäcka och omorientera omvänt komplementära 16S-sekvenser av nästan vilken längd som helst och kan användas för att upptäcka olika sekvensanomalier.