V-REVCOMP: automatizovaná vysoce výkonná detekce reverzně komplementárních sekvencí genu 16S rRNA ve velkých souborech environmentálních a taxonomických dat

Reverzně komplementární sekvence DNA – sekvence, které jsou neúmyslně uvedeny pozpátku s transponovanými puriny a pyrimidiny – mohou negativně ovlivnit analýzu sekvencí, pokud nejsou brány v úvahu. Představujeme vysoce výkonný softwarový nástroj s otevřeným zdrojovým kódem -v-revcomp (http://www.cmde.science.ubc.ca/mohn/software.html) – k detekci a přeorientování reverzních komplementárních záznamů genu malé podjednotky rRNA (16S) ze souborů sekvenačních dat, zejména z environmentálních zdrojů. Software podporuje délky sekvencí od plné délky až po krátké čtení, které je charakteristické pro technologie sekvenování nové generace. Hodnotili jsme spolehlivost v-revcomp pomocí screeningu všech 406 781 sekvencí 16S uložených ve vydání 102 kurátorované databáze SILVA a prokázali jsme, že nástroj má prakticky 100% přesnost detekce. Následně jsme v-revcomp použili k analýze 1 171 646 sekvencí 16S uložených v mezinárodních databázích nukleotidových sekvencí a zjistili jsme, že přibližně 1 % těchto sekvencí zaslaných uživateli bylo reverzně komplementárních. Kromě toho byla netriviální část záznamů jinak anomálních, včetně reverzně komplementárních chimér, sekvencí spojených s nesprávnými taxony, neribosomálních genů, sekvencí špatné kvality nebo jinak chybných sekvencí bez rozumné shody s jakýmkoli jiným záznamem v databázi. Program v-revcomp je tedy vysoce účinný při detekci a reorientaci reverzně komplementárních sekvencí 16S téměř jakékoli délky a lze jej použít k detekci různých sekvenčních anomálií.