比对DNA序列并标记SNP

时间:2015-04-27 07:58:01

标签: linux dna-sequence

我有两个fasta文件。 每个文件包含大鼠或小鼠中具有物种特异性已知SNP的短基因组区域的序列。

File_1 :

>Rat_1
GGTGCCTGTGTATTGCCTCTGTCGACTGCCTTACGATGTGACCCGCTTCATGAT
>Rat_2
AAGCGGCCGGTTTCCTTGGCGACGAAGAGCGCGGGAATTTCAGATAGATTGTAATTGCGGCTGC
>Rat_3
GCAGCCATCTCTGCAACAATTGTGACAATGGCTGAGCCTAGCACAGACCCCAACAAAGAT


File_2 :

>Mouse_1
GGTGCCTGTGTATTACCTCTGTCGACTGCCTTACGATGTGACCCGCTTCATGAT
>Mouse_1_2
AAGCGGCCGGTTTCCTTGGCGTCGAAGAGCGCGGGAATTTCAGATAGATTGTAATTGCGGCTGC
>Mouse_1_3
GCAGCCATCTCTGCAACAATTGTGACAATGGTTGAGCCTAGCACAGACCCCAACAAAGAT

我想要做的是找到SNP并提取约20个碱基。 结果应该如下所示......

Resut_file :

>Rat_1
CTGTGTATTGCCTCTGTC
         ^  
>Mouse_1
CTGTGTATTACCTCTGTC
         ^ 

拜托我,编程大师!!!

谢谢。

1 个答案:

答案 0 :(得分:0)

有许多输出差异的工具,例如vimdiffdiff等。

尝试查看类似问题here

P.S。在这里提出这样的问题是不相关的,你必须至少展示你试图做的事情。