V-REVCOMP: zautomatyzowane, wysokowydajne wykrywanie odwrotnie komplementarnych sekwencji genu 16S rRNA w dużych środowiskowych i taksonomicznych zbiorach danych

Odwrotnie komplementarne sekwencje DNA – sekwencje, które są nieumyślnie podane wstecz z transponowanymi wszystkimi purynami i pirymidynami – mogą mieć szkodliwy wpływ na analizę sekwencji, jeśli nie są brane pod uwagę. Przedstawiamy open-source’owe, wysokowydajne narzędzie programowe -v-revcomp (http://www.cmde.science.ubc.ca/mohn/software.html) – do wykrywania i reorientacji odwrotnie komplementarnych zapisów genu małej podjednostki rRNA (16S) z zestawów danych sekwencjonowania, szczególnie ze źródeł środowiskowych. Oprogramowanie obsługuje sekwencje o długości od pełnej długości do krótkich odczytów, które są charakterystyczne dla technologii sekwencjonowania następnej generacji. Oceniliśmy wiarygodność v-revcomp poprzez przesiewanie wszystkich 406 781 sekwencji 16S zdeponowanych w wydaniu 102 bazy danych SILVA i wykazaliśmy, że narzędzie to ma dokładność detekcji praktycznie 100%. Następnie użyliśmy v-revcomp do analizy 1 171 646 sekwencji 16S zdeponowanych w International Nucleotide Sequence Databases i stwierdziliśmy, że około 1% tych sekwencji zgłoszonych przez użytkowników było odwrotnie komplementarnych. Ponadto, nietrywialna część wpisów była w inny sposób anomalna, włączając w to odwrotnie komplementarne chimery, sekwencje związane z niewłaściwymi taksonami, geny nierybosomalne, sekwencje o niskiej jakości lub w inny sposób błędne sekwencje bez rozsądnego dopasowania do jakiegokolwiek innego wpisu w bazie danych. Tak więc, v-revcomp jest bardzo wydajny w wykrywaniu i reorientacji odwrotnie komplementarnych sekwencji 16S o prawie dowolnej długości i może być używany do wykrywania różnych anomalii sekwencji.