V-REVCOMP: automated high-throughput detection of reverse complementary 16S rRNA gene sequences in large environmental and taxonomic datasets

Reverse complementaire DNA sequenties – sequenties die per ongeluk achterstevoren worden gegeven met alle purines en pyrimidines getransponeerd – kunnen sequentie analyse nadelig beïnvloeden tenzij er rekening mee wordt gehouden. We presenteren een open-source, high-throughput software tool -v-revcomp (http://www.cmde.science.ubc.ca/mohn/software.html) – om reverse complementaire entries van het small-subunit rRNA (16S) gen uit sequencing datasets, met name uit milieubronnen, op te sporen en te heroriënteren. De software ondersteunt sequentielengtes variërend van volledige lengte tot de korte reads die kenmerkend zijn voor next-generation sequencing technologieën. We evalueerden de betrouwbaarheid van v-revcomp door alle 406 781 16S sequenties te screenen die in release 102 van de gecureerde SILVA databank waren opgenomen en toonden aan dat de tool een detectienauwkeurigheid van bijna 100% heeft. Vervolgens gebruikten we v-revcomp om 1 171 646 16S sequenties uit de International Nucleotide Sequence Databases te analyseren en ontdekten dat ongeveer 1% van deze door gebruikers ingezonden sequenties omgekeerd complementair waren. Bovendien was een niet onbelangrijk deel van de ingevoerde sequenties anderszins abnormaal, met inbegrip van omgekeerd complementaire chimaeren, sequenties die in verband worden gebracht met verkeerde taxa, nonribosomale genen, sequenties van slechte kwaliteit of anderszins foutieve sequenties zonder een redelijke match met enig ander item in de database. Aldus is v-revcomp zeer efficiënt in het detecteren en heroriënteren van omgekeerd complementaire 16S-sequenties van bijna elke lengte en kan het worden gebruikt om verschillende sequentie-anomalieën op te sporen.