V-REVCOMP: automatiseret højhastighedsdetektion af omvendt komplementære 16S rRNA-gensekvenser i store miljømæssige og taksonomiske datasæt

Omvendt komplementære DNA-sekvenser – sekvenser, der utilsigtet er givet baglæns med alle puriner og pyrimidiner transponeret – kan påvirke sekvensanalysen negativt, hvis der ikke tages hensyn til dem. Vi præsenterer et open source, højtydende softwareværktøj -v-revcomp (http://www.cmde.science.ubc.ca/mohn/software.html) – til at detektere og omorientere omvendt komplementære indgange af det lille rRNA-gen (16S) fra sekventeringsdatasæt, især fra miljømæssige kilder. Softwaren understøtter sekvenslængder fra fuld længde ned til de korte reads, der er karakteristiske for næste generation af sekventeringsteknologier. Vi har evalueret pålideligheden af v-revcomp ved at screene alle 406 781 16S-sekvenser, der er deponeret i version 102 af den kuraterede SILVA-database, og vi har vist, at værktøjet har en detektionsnøjagtighed på næsten 100 %. Vi brugte efterfølgende v-revcomp til at analysere 1 171 646 16S-sekvenser, der er deponeret i International Nucleotide Sequence Databases, og fandt, at ca. 1 % af disse af brugerne indsendte sekvenser var omvendt komplementære. Desuden var en ikke ubetydelig del af posterne på anden vis unormale, herunder omvendt komplementære kimærer, sekvenser forbundet med forkerte taxa, ikkeribosomale gener, sekvenser af dårlig kvalitet eller på anden vis fejlagtige sekvenser uden et rimeligt match med nogen anden post i databasen. Således er v-revcomp meget effektiv til at opdage og omorientere omvendt komplementære 16S-sekvenser af næsten enhver længde og kan bruges til at opdage forskellige sekvensanomalier.