我有一组DNA序列,我想将它们分组,即基于相似性的聚类。该文件看起来像
ATGCATGCATGCATGC
ATGCATGCATGCATGC
ATGCATGCATGCATGC
ATGCATGCATGCATGT
ATGCATGCATGCATGT
TTGCATGCATGCATGC
TTGCATGCATGCATGC
TTGCATGCATGCATGC
TTGCATGCATGCATGC
TTGCATGCATGCATGC
cat File_Name.txt |排序| uniq -c
3 ATGCATGCATGCATGC
2 ATGCATGCATGCATGT
5 TTGCATGCATGCATGC
有了这个,我得到了数字和字符串,这是一种聚类。现在我可以根据每个集群中的字符串数过滤集群。
但是我想在分组数据时允许一个不匹配(在这种情况下所有的读取都属于一个组),我想知道什么是最好的方法。
我可以将所有序列相互比较并计算汉明距离并将读数与汉明距离0或1组合在一起,但这是计算密集型的。
我想知道是否还有其他办法。