我正在处理数据挖掘问题,我必须找到一对对象之间的相似性。我知道所有统计距离是什么,但未能找到定义何时使用哪个统计距离的任何来源?
答案 0 :(得分:0)
我的答案不会是一个简单的问题"使用那个"因为统计数据中没有这样的东西。
我过去发现自己使用统计距离,例如Mahalanobis,这是处理类似问题时Bhattacharyya距离的一个特例。我在建造树木时使用KL-divergence(最小化树木等)。
两者之间的主要区别在于Bhattacharyya是一个指标而KL不是,所以在考虑要提取哪些关于数据点的信息时,你必须考虑到这一点。
简而言之,我会使用Bhattacharyya。