V-REVCOMP: käänteiskomplementaaristen 16S rRNA -geenisekvenssien automaattinen korkean läpimenon havaitseminen suurissa ympäristö- ja taksonomisissa tietokokonaisuuksissa

Käänteiskomplementaariset DNA:n sekvenssit – eli sekvenssit, jotka on annettu epähuomiossa takaperin siten, että puriinit ja pyrimidiinit ovat kaikki siirtyneet toisiinsa nähden, – voivat vaikuttaa sekvenssianalyyseihin haitallisesti, jos niitä ei oteta huomioon. Esittelemme avoimen lähdekoodin, korkean läpimenon ohjelmistotyökalun -v-revcomp (http://www.cmde.science.ubc.ca/mohn/software.html) – pienen alayksikön rRNA-geenin (16S) käänteiskomplementaaristen merkintöjen havaitsemiseksi ja uudelleen suuntaamiseksi sekvensointitietoaineistoista, erityisesti ympäristölähteistä. Ohjelmisto tukee sekvenssien pituuksia täydestä pituudesta aina seuraavalle sukupolvelle tyypillisiin lyhyisiin lukemiin asti. Arvioimme v-revcompin luotettavuutta seulomalla kaikki 406 781 16S-sekvenssiä, jotka on talletettu kuratoidun SILVA-tietokannan julkaisuun 102, ja osoitimme, että työkalun tunnistustarkkuus on lähes 100 prosenttia. Tämän jälkeen käytimme v-revcompia analysoidaksemme 1 171 646 16S-sekvenssiä, jotka on talletettu kansainvälisiin nukleotidisekvenssitietokantoihin, ja havaitsimme, että noin 1 % näistä käyttäjien toimittamista sekvensseistä oli käänteiskomplementaarisia. Lisäksi ei-triviaali osa merkinnöistä oli muutoin poikkeavia, mukaan lukien käänteiskomplementaariset kimeerit, vääriin taksoneihin liittyvät sekvenssit, ei-ribosomaaliset geenit, huonolaatuiset sekvenssit tai muutoin virheelliset sekvenssit, joilla ei ollut järkevää vastaavuutta minkään muun tietokannan merkinnän kanssa. Näin ollen v-revcomp on erittäin tehokas havaitsemaan ja suuntaamaan uudelleen lähes minkä tahansa pituisia käänteiskomplementaarisia 16S-sekvenssejä, ja sitä voidaan käyttää erilaisten sekvenssipoikkeavuuksien havaitsemiseen.