我正在使用h2o进行数据异常检测。数据包含几个连续和分类的特征,标签可以是0或1.现在,因为1的计数小于1%,我正在尝试异常检测技术,而不是使用通常的分类方法。但是,最后我得到每行数据的MSE计算,我不知道如何解释它可以说实际标签是0,但因为它是一个异常,应该是1.
到目前为止我使用的代码:
features <- names(train.df)[!names(train.df) %in% c("label")]
train.df <- subset(train.df, label==0)
train.h <- as.h2o(train.df)
mod.dl <- h2o.deeplearning(
x=features,
autoencoder=TRUE,
training_frame=train.h,
activation=c("Tanh"),
hidden=c(10,10), epochs=20, adaptive_rate=FALSE,
variable_importances=TRUE,
l1=1e-4, l2=1e-4,
sparse=TRUE
)
pred.oc <- as.data.frame(h2o.anomaly(mod.dl.oc, train.h.oc))
head(pred.oc)
:
Reconstruction.MSE
1 0.012059304
2 0.014490905
3 0.011002231
4 0.013142910
5 0.009631915
6 0.012897779
答案 0 :(得分:1)
自动编码器正在尝试学习原始数据的非线性,简化表示。这是一种无监督的方法,因此它只考虑数据的特征。这不是分类的方法。
均方误差是一种了解自动编码器表示输出有多难的方法。异常被认为是具有高均方误差的行/观测值。
在您的情况下,具有最高MSE的行应被视为异常。它们可以是1的行,但标记为0.但是,这个结论不能从自动编码器方法中得出。