V-REVCOMP: automatisierte Hochdurchsatz-Erkennung von umgekehrt komplementären 16S rRNA-Gen-Sequenzen in großen Umwelt- und taxonomischen Datensätzen

Umgekehrte komplementäre DNA-Sequenzen – Sequenzen, die versehentlich rückwärts angegeben werden, wobei alle Purine und Pyrimidine vertauscht sind – können die Sequenzanalyse nachteilig beeinflussen, wenn sie nicht berücksichtigt werden. Wir stellen ein quelloffenes Software-Tool mit hohem Durchsatz vor -v-revcomp (http://www.cmde.science.ubc.ca/mohn/software.html) -, um umgekehrt komplementäre Einträge des rRNA-Gens (16S) der kleinen Untereinheit aus Sequenzierungsdatensätzen, insbesondere aus Umweltquellen, zu erkennen und neu auszurichten. Die Software unterstützt Sequenzlängen von voller Länge bis hin zu den kurzen Reads, die für Sequenzierungstechnologien der nächsten Generation charakteristisch sind. Wir haben die Zuverlässigkeit von v-revcomp durch ein Screening aller 406 781 16S-Sequenzen bewertet, die in Version 102 der kuratierten SILVA-Datenbank hinterlegt sind, und gezeigt, dass das Tool eine Erkennungsgenauigkeit von nahezu 100 % hat. Anschließend analysierten wir mit v-revcomp 1 171 646 16S-Sequenzen, die in der International Nucleotide Sequence Databases hinterlegt sind, und stellten fest, dass etwa 1 % dieser von Benutzern eingereichten Sequenzen umgekehrt komplementär waren. Darüber hinaus war ein nicht unerheblicher Anteil der Einträge anderweitig anomal, einschließlich umgekehrt komplementärer Chimären, Sequenzen, die mit falschen Taxa assoziiert sind, nichtribosomalen Genen, Sequenzen von schlechter Qualität oder anderweitig fehlerhaften Sequenzen ohne vernünftige Übereinstimmung mit einem anderen Eintrag in der Datenbank. Somit ist v-revcomp äußerst effizient bei der Erkennung und Neuausrichtung von umgekehrt komplementären 16S-Sequenzen fast jeder Länge und kann zur Erkennung verschiedener Sequenzanomalien verwendet werden.