V-REVCOMP: automatizzato high-throughput rilevamento di sequenze di gene 16S rRNA complementare inversa in grandi set di dati ambientali e tassonomici

sequenze di DNA complementare inversa – sequenze che sono inavvertitamente dato all’indietro con tutte le purine e pirimidine trasposte – può influenzare l’analisi di sequenza negativamente se non presi in considerazione. Presentiamo un open-source, strumento software ad alta produttività -v-revcomp (http://www.cmde.science.ubc.ca/mohn/software.html) – per rilevare e riorientare le voci complementari inverse della piccola unità rRNA (16S) gene da set di dati di sequenziamento, in particolare da fonti ambientali. Il software supporta lunghezze di sequenza che vanno dall’intera lunghezza fino alle letture brevi che sono caratteristiche delle tecnologie di sequenziamento di prossima generazione. Abbiamo valutato l’affidabilità di v-revcomp vagliando tutte le 406 781 sequenze 16S depositate nella release 102 della banca dati curata SILVA e abbiamo dimostrato che lo strumento ha un’accuratezza di rilevamento praticamente del 100%. Successivamente abbiamo usato v-revcomp per analizzare 1 171 646 sequenze 16S depositate nell’International Nucleotide Sequence Databases e abbiamo scoperto che circa l’1% di queste sequenze inviate dagli utenti erano inversamente complementari. Inoltre, una proporzione non banale delle voci era altrimenti anomala, tra cui chimere a complemento inverso, sequenze associate a taxa sbagliati, geni nonribosomici, sequenze di scarsa qualità o altrimenti sequenze errate senza una corrispondenza ragionevole con qualsiasi altra voce nel database. Così, v-revcomp è altamente efficiente nel rilevare e riorientare sequenze 16S complementari inverse di quasi tutte le lunghezze e può essere utilizzato per rilevare varie anomalie di sequenza.