我有两个问题要准确。首先,我想知道是否有一种简单的方法来调整马尔可夫聚类算法,以便我可以提前指定我希望在最后有多少个聚类。如果没有,你会推荐哪种类似的算法?
其次应该如何处理马尔可夫世界中的重叠集群?
答案 0 :(得分:14)
1)。没有简单的方法来调整MCL算法(注意:它的名字是'Markov cluster algorithm',没有'ing'。很多人用'做马尔可夫聚类'来表达它,这很好)输出指定数量的聚类。在我看来,99.99%的时间是一个非常理想的功能。如果我要做你想做的事情,我会在不同的粒度级别生成4或5个聚类(比如将MCL通胀参数设置为1.4,2.0,3.0,4.0和6.0,但是可能值得多做一些,根据簇大小的分布选择),然后在层次聚类中统一它们(程序'clm close'可以做到这一点)。之后,可以遍历树并尝试找到所需大小的最佳聚类。这显然需要付出巨大努力。我做过类似的事情但过去并不完全相同。
2)。 MCL产生的重叠聚类非常罕见,并且始终是输入图中对称性的结果。大多数人使用的标准MCL实现(来自http://micans.org/mcl/)将删除重叠。我认为这不是一个问题。免责声明:我撰写了MCL。