如果我有3个多维数据:
Data 1: (22, 80, 9)
Data 2: (23, 78, 10)
Data 3: (21, 81, 11)
我想计算这3个数据的均值和标准差,因为我想通过3-sigma规则来检测异常值。
我可以简单地计算几何平均值来表示Data1,Data2和Data3吗?
例如:
Data 1: (22,80,9) -> Data 1: (25.11414)
Data 2: (23,78,10) -> Data 2: (26.17826)
Data 3: (21,81,11) -> Data 3: (26.54803)
将多维数据映射到一维数据后,我可以轻松得到方差和标准差。
以上是我的推理,但我不确定它是否有意义。
任何人都可以回答我,或者有人见过关于这个话题的论文,
非常感谢!
答案 0 :(得分:0)
为了使用" 3 sigma规则"我将假设数据集的每个维度都是固定的(从某种意义上说,它在数据样本中具有一致的含义),因此:
Data 1: (22, 80, 9)
Data 2: (23, 78, 10)
Data 3: (21, 81, 11)
^ ^ ^
| | |
some 1st feature|
| |
second feature
|
third feature
您需要估算功能明智的标准,因此
std1 = std(22, 23, 21)
std2 = std(80, 78, 81)
std3 = std(9, 10, 11)
mu1 = mean(22, 23, 21)
mu2 = mean(80, 78, 81)
mu3 = mean(9, 10, 11)
现在,当您有一个新的数据点(x1, x2, x3)
时,如果至少有以下一个数据点存在,则认为它是异常值
x1
不属于[mu1 - 3*std1, mu1 + 3*std1]
x2
不属于[mu2 - 3*std2, mu2 + 3*std2]
x3
不属于[mu3 - 3*std3, mu3 + 3*std3]
有效地,正在发生的事情是,您假设您的数据具有单变量,正态分布特征,并且特征是条件独立的,并且您只是拒绝概率小于~99.7%的点。
没有"几何意义"涉及任何地方。