我想根据给定的k-mers列表扫描DNA序列列表; k-mer列表中的每个元素都是一组长度相等的类似k-mers,它们看起来像
myKmer1 = c(“TATGGGTTT”,“TAAGGGTTT”,......,“CAAGGGTTT”)
...
myKmer10 = c(“GGATTCCAG”,“CCATTCTTT”,......,“CGATTCCTT”)
可以使用哪些软件/ R脚本来获得每个序列上k-mers列表的出现 - 结果应该是一个表格如下:
k-mers发生表1:显示序列中k聚体的计数
myKmer1 myKmer2 ... myKmer10
seq1 2 0 3
seq2 1 3 0
...
seq1000 0 1 0
k-mers发生表2:显示序列中k聚体的位置
myKmer1 myKmer2 ... myKmer10
seq1 111,888 0 123,456,3333
seq2 123 111,223,333 0
...
seq1000 0 1234 0
答案 0 :(得分:1)
如果您要查找的kmers长度相同,则可以使用Jellyfish和dump子命令来计算长度为k的所有kmers的计数。然后,您可以解析特定kmers的输出。另请参阅Jellyfish user guide。