V-REVCOMP: detectarea automată cu randament ridicat a secvențelor complementare inverse ale genei 16S ARNr în seturi mari de date de mediu și taxonomice

Secvențele de ADN complementare inverse – secvențe care sunt date din greșeală invers cu toate purinele și pirimidinele transpuse – pot afecta negativ analiza secvențelor dacă nu sunt luate în considerare. Prezentăm un instrument software open-source, de mare randament -v-revcomp (http://www.cmde.science.ubc.ca/mohn/software.html) – pentru a detecta și reorienta intrările complementare inverse ale genei ARNr de subunitate mică (16S) din seturile de date de secvențiere, în special din surse de mediu. Software-ul suportă lungimi de secvență care variază de la lungimea completă până la citirile scurte care sunt caracteristice tehnologiilor de secvențiere de generație următoare. Am evaluat fiabilitatea v-revcomp prin examinarea tuturor celor 406 781 de secvențe 16S depuse în versiunea 102 a bazei de date curatoriale SILVA și am demonstrat că instrumentul are o precizie de detectare de aproape 100%. Ulterior, am utilizat v-revcomp pentru a analiza 1 171 646 de secvențe 16S depuse în bazele de date internaționale de secvențe de nucleotide și am constatat că aproximativ 1% din aceste secvențe transmise de utilizatori erau complementare invers. În plus, o proporție deloc neglijabilă de intrări era altfel anormală, inclusiv chimere complementare inverse, secvențe asociate cu taxoni greșiți, gene non-ribosomale, secvențe de calitate slabă sau secvențe eronate fără o potrivire rezonabilă cu orice altă intrare din baza de date. Astfel, v-revcomp este foarte eficient în detectarea și reorientarea secvențelor 16S complementare inverse de aproape orice lungime și poate fi utilizat pentru a detecta diverse anomalii ale secvențelor.