1个不匹配的字符串分组

时间:2014-03-08 10:28:30

标签: python string hierarchical-clustering

我有一组DNA序列,我想将它们分组,即基于相似性的聚类。该文件看起来像

ATGCATGCATGCATGC
ATGCATGCATGCATGC
ATGCATGCATGCATGC
ATGCATGCATGCATGT
ATGCATGCATGCATGT
TTGCATGCATGCATGC
TTGCATGCATGCATGC
TTGCATGCATGCATGC
TTGCATGCATGCATGC
TTGCATGCATGCATGC

cat File_Name.txt |排序| uniq -c

  3 ATGCATGCATGCATGC
  2 ATGCATGCATGCATGT
  5 TTGCATGCATGCATGC

有了这个,我得到了数字和字符串,这是一种聚类。现在我可以根据每个集群中的字符串数过滤集群。

但是我想在分组数据时允许一个不匹配(在这种情况下所有的读取都属于一个组),我想知道什么是最好的方法。

我可以将所有序列相互比较并计算汉明距离并将读数与汉明距离0或1组合在一起,但这是计算密集型的。

我想知道是否还有其他办法。

0 个答案:

没有答案