ELKI,DBOutlierDetection算法:什么度量是d?

时间:2015-08-02 04:16:56

标签: data-mining outliers elki

您能告诉我DBOutlierDetection算法(或DBOutlierScore)中参数d的哪个度量值?厘米? Milimetres?

我必须以某种方式将参数d下的区域与LOF的k进行比较。

1 个答案:

答案 0 :(得分:2)

这取决于您使用-algorithm.distancefunction设置的距离度量

参数是距离;距离的意义取决于您的数据和距离函数。

例如,如果您的数据是纬度,经度对

  • 欧几里德距离将以度为单位,由于变形而在极点附近是一个相当无意义的值(北极一度实际上没有任何东西,但沿赤道是一个相当大的距离)
  • ELKI中的大地距离使用米。这更容易参数化。

类似,如果你使用的是欧几里德距离,那么

  • 数据以米为单位,则欧几里德距离以米为单位
  • 数据以毫米为单位,然后欧几里德距离以毫米为单位
  • 数据是鞋子的尺寸,重量,高度和电压,然后使用欧几里德距离没有多大意义,因为你正在测量苹果和橘子。

您可以规范化标准化数据。例如,如果按平均值和标准偏差进行标准化,则度量单位将消失。在这些数据上使用欧几里德距离则具有“标准偏差”的单位。但是这个单元在多模式分布上也没有多大意义,因为它在异常检测和聚类中很常见。