最大信息系数与分层凝聚聚类

时间:2017-10-29 17:08:01

标签: functional-programming duplicates cluster-analysis coefficients information-theory

在识别功能和非功能依赖关系时,最大信息系数和分层凝聚聚类之间有什么区别。

哪些人可以更好地识别重复项?

1 个答案:

答案 0 :(得分:0)

这个问题没有多大意义,对不起。

MIC和HAC的共同点接近于零。

MIC是一种残缺的“相关性”形式,具有非常粗糙的启发式搜索,大量的宣传视频和新闻公告,并收到了来自统计学家的一些非常严厉的评论。您可以将文件归档“如果已提交给相应的期刊(而不是非常不明确且过高的Science which probably shouldn't publish such topics at all - 或者至少从主题域获得更好的审核者。这不是第一篇具有这种质量的科学文章......),它会被拒绝(原样 - 更好的专家评审员会要求做出重大改变)“。参见,例如,

  

Noah Simon和Robert Tibshirani,评论“Resithf et al。”,Science 12月16日,2011年12月16日“检测大型数据集中的新型关联”

     

“从图中可以看出,除了有些病态的高频正弦波之外,MIC的功率都低于dcor .MIC有时也不如Pearson相关性强,线性情况特别令人担忧。 “

“tibs”是一位备受尊敬的作家。而这只是令人惊讶的是,这样的事情在如此高的声誉期刊中被接受了。 IIRC,MIC的作者甚至未能将像Spearman这样的“古代”替代品与dCor等现代替代品进行比较,或者对其方法的统计功效进行适当的测试。

当使用统计数据进行研究时,MIC的效果比宣传的要糟糕得多:

  

Gorfine,M.,Heller,R。,& Heller,Y。(2012)。评论“检测大数据集中的小说联想”

     

“在大多数嘈杂的功能和非功能设置下,HHG和dCor测试在MIC测试中具有非常大的功率优势,在实际样本量下;”

事实上,MIC在一些简单的数据集上给出了非常不合适的结果,例如棋盘格均匀分布▄▀,它认为是最大相关的(与y = x相关);按设计。他们的基于网格的设计适用于具有正弦曲线的相当特殊的场景。它有一些有趣的属性,但这些是早期方法(如Spearman和dCor)更好地捕获的恕我直言。

MIC作者未能与Spearman进行比较是恕我直言,这是一个严重的遗漏,因为如果我没记错的话,他们自己的方法也纯粹基于等级。 Spearman是Pearson-on-rank,但他们只与Pearson比较。 MIC(另一个值得怀疑的选择)最喜欢的例子是正弦波 - 在等级变换之后实际上是繁忙的曲折曲线,而不是正弦曲线。我认为这是“作弊”让Pearson看起来很糟糕,因为他没有使用Pearson的等级变换。好的评论者会要求进行这样的比较。

现在所有这些投诉基本上都与HAC无关。如果“相关”,HAC不会尝试定义任何形式,但它可以与任何距离或相似性(包括相关性相似性)一起使用。 HAC完全不同:聚类算法。它分析更大的行,而不是两个(!)列。

你甚至可以将它们组合起来:如果你计算每对变量的MIC(但我宁愿使用Pearson相关,Spearman相关或距离相关dCor),你可以使用HAC来集群变量。

为了找到一个重复的副本,两者都不是一个好的选择。只需对数据进行排序,重复数据将相互关联。 (或者,如果您对列进行排序,彼此相邻)。