我希望展示一些基因组数据中引物的一致性。我有一个约23bp的引物,希望将其与10kb的约5000个基因组序列进行比较。由于这对于我的计算机来说实在太多了,因此我想执行以下操作:
> 1. Cut out the area that my primer is located and about 20bp down each end.
> 2. Show only the bases that are different from my primer in my analysis.
> ex: Primer: -----------ATGTGGAAGCAAATATCAAATGA---------
> Gene: ATGACCATACG----C--------------T---ATCGTAGGG
> ATGAGCATACC-----A----T--------T---TTCGAACGC
我使用的数据是所有登革热序列(所有血清型)和带有以下代码的引物:ATGTGGAAGCAAATATCAAATGA。
我试图以某种方式使用msa()函数,仅查看感兴趣的基因部分。但是,这很困难,因为要准确地预测是否需要调整它。
我仍在考虑也许在基因的那一部分切出一个任意数字并使其对齐,但无法找到适当地证明它的出路,并且还认为其他人可能会提出一些更好的方法。
我正在使用Biostrings,msa和seqinr。我使用ncbi获取遗传序列并使用FASTA文件。
谢谢!