如何在DNA序列列表中找到k-mers的发生

时间:2013-08-25 19:11:14

标签: sequences find-occurrences

我想根据给定的k-mers列表扫描DNA序列列表; k-mer列表中的每个元素都是一组长度相等的类似k-mers,它们看起来像

myKmer1 = c(“TATGGGTTT”,“TAAGGGTTT”,......,“CAAGGGTTT”)

...

myKmer10 = c(“GGATTCCAG”,“CCATTCTTT”,......,“CGATTCCTT”)

可以使用哪些软件/ R脚本来获得每个序列上k-mers列表的出现 - 结果应该是一个表格如下:

k-mers发生表1:显示序列中k聚体的计数

myKmer1 myKmer2 ... myKmer10

seq1 2 0 3

seq2 1 3 0

...

seq1000 0 1 0

k-mers发生表2:显示序列中k聚体的位置

myKmer1 myKmer2 ... myKmer10

seq1 111,888 0 123,456,3333

seq2 123 111,223,333 0

...

seq1000 0 1234 0

1 个答案:

答案 0 :(得分:1)

如果您要查找的kmers长度相同,则可以使用Jellyfish和dump子命令来计算长度为k的所有kmers的计数。然后,您可以解析特定kmers的输出。另请参阅Jellyfish user guide