V-REVCOMP: automated high-throughput detection of reverse complementary 16S rRNA gene sequences in large environmental and taxonomic datasets

Reverse complementary DNA sequences(誤ってすべてのプリンとピリミジンが転置されて逆向きに付与されてしまったシーケンス)は考慮しなければシーケンス分析に有害な影響を与える可能性がある。 我々は、オープンソースのハイスループットなソフトウェアツールであるv-revcomp(http://www.cmde.science.ubc.ca/mohn/software.html)を紹介し、特に環境ソースからのシーケンスデータセットから、スモールサブユニットrRNA(16S)遺伝子の逆相補エントリーを検出し方向転換させることができる。 このソフトウェアは、全長から次世代シーケンサーの特徴である短いリードまでの配列長をサポートしています。 SILVAデータベースのリリース102に登録された406 781の16S配列をスクリーニングし、v-revcompの信頼性を評価したところ、実質的に100%の検出精度を持つことが実証されました。 その後、v-revcompを使ってInternational Nucleotide Sequence Databasesに寄託された1,171 646の16S配列を解析し、これらのユーザー投稿配列の約1%が逆相補的であることを発見しました。 さらに、逆相補的なキメラ、誤った分類群に関連する配列、非リボソーム遺伝子、質の悪い配列、データベース内の他のエントリーと合理的に一致しないその他の誤った配列など、エントリーの自明ではない割合が異常であることが判明しました。 このように、v-revcompは、ほぼすべての長さの逆相補的な16S配列を検出し、再配列するのに非常に効率的であり、様々な配列異常を検出するために使用することができる。