为什么三角定律在数据挖掘中如此重要

时间:2012-09-02 21:23:28

标签: data-mining

我很想知道为什么三角定律对于更好的数据挖掘是如此重要。据我所知,三角定律有助于我们根据不同对象之间的距离来定义模式和形成聚类。任何人都有任何其他输入三角法?

1 个答案:

答案 0 :(得分:1)

实际上并不重要。在数据挖掘中,我们通常不能假设具有适当的“数学”距离函数。一旦我们允许重复,我们已经失去了一个关键公理 - 我们可以有两个距离为0的不同对象。(在分类中,他们甚至可能在最坏的情况下有不同的类)

但是,三角不等式可以让我们修剪搜索空间。如果我们有一个满足三角不等式并使用适当索引的距离函数,我们可以跳过大量计算,从而使算法更快。

请注意,许多研究和实施并不关心这种优化。许多使用R的数据挖掘者喜欢构建一个距离矩阵(在O(n^2)中!),然后尝试尽可能多地使用矩阵运算,因为编程很简单并且R在这种情况下非常快操作(使用高度优化的C代码,而不是解释的R代码)。但是如果你需要超越这个,性能的一个关键因素是在可能的情况下利用三角不等式。