我可以使用几何平均值来表示检测异常值的多维数据吗?

时间:2016-06-15 14:14:21

标签: algorithm machine-learning statistics variance outliers

如果我有3个多维数据:

Data 1: (22, 80, 9)

Data 2: (23, 78, 10)

Data 3: (21, 81, 11)

我想计算这3个数据的均值和标准差,因为我想通过3-sigma规则来检测异常值。

我可以简单地计算几何平均值来表示Data1,Data2和Data3吗?

例如:

Data 1: (22,80,9) -> Data 1: (25.11414)


Data 2: (23,78,10) -> Data 2: (26.17826)


Data 3: (21,81,11) -> Data 3: (26.54803)

将多维数据映射到一维数据后,我可以轻松得到方差和标准差。

以上是我的推理,但我不确定它是否有意义。

任何人都可以回答我,或者有人见过关于这个话题的论文,

非常感谢!

1 个答案:

答案 0 :(得分:0)

为了使用" 3 sigma规则"我将假设数据集的每个维度都是固定的(从某种意义上说,它在数据样本中具有一致的含义),因此:

Data 1: (22, 80,  9)
Data 2: (23, 78, 10)
Data 3: (21, 81, 11)
          ^   ^   ^
          |   |   |
  some 1st feature|
              |   |
      second feature
                  |
          third feature

您需要估算功能明智的标准,因此

std1 = std(22, 23, 21)
std2 = std(80, 78, 81)
std3 = std(9,  10, 11)

mu1 = mean(22, 23, 21)
mu2 = mean(80, 78, 81)
mu3 = mean(9,  10, 11)

现在,当您有一个新的数据点(x1, x2, x3)时,如果至少有以下一个数据点存在,则认为它是异常值

  • x1不属于[mu1 - 3*std1, mu1 + 3*std1]
  • x2不属于[mu2 - 3*std2, mu2 + 3*std2]
  • x3不属于[mu3 - 3*std3, mu3 + 3*std3]

有效地,正在发生的事情是,您假设您的数据具有单变量,正态分布特征,并且特征是条件独立的,并且您只是拒绝概率小于~99.7%的点。

没有"几何意义"涉及任何地方。