ELKI,输出:ROCAUC,Precision @ k,f1.maximum

时间:2015-08-01 21:47:21

标签: data-mining outliers elki

在异常情况下,Precision @ k用于什么? (当我在同一个数据集上改变k时,我总是得到: Precision @ 3016 而且我没有得到ELKI的数字,异常值的数量是1508)

precision.average and precision.r?

和f1.maximum?

我知道ROCAUC是衡量算法将异常值标记为异常值和正常标准物的标准。

我想看看异常值检测的质量是否良好。我也可以用其他措施吗?

Computing LDOFs
LDOF for objects: 49534 [100%]
de.lmu.ifi.dbs.elki.algorithm.outlier.lof.LDOF.runtime: 116887 ms
Evaluating using minority class: yes
de.lmu.ifi.dbs.elki.evaluation.outlier.OutlierRankingEvaluation.rocauc: 0.736341684836717
de.lmu.ifi.dbs.elki.evaluation.outlier.OutlierRankingEvaluation.precision.average: 0.10795456476088741
de.lmu.ifi.dbs.elki.evaluation.outlier.OutlierRankingEvaluation.precision.r: 0.16578249336870027
de.lmu.ifi.dbs.elki.evaluation.outlier.OutlierRankingEvaluation.f1.maximum: 0.18336314847942753
ROCAUC: 0.7363416848367167
Precision @ 3016 0.13726790450928383

1 个答案:

答案 0 :(得分:4)

R-precision是Precision @ k,k =你的基本事实中的异常值数。 此时,召回=精确。所以在你的情况下,它将是精确的@ 1508。 “r”来自“召回=精确”点。

这是算法的k参数。但两者在文学中通常被称为k。

最大F1是通过改变截止k可获得的F1测量(精度和召回)的最大值。因此存在k,其中精度和召回的调和平均值为0.18336。

平均精度是通常的平均精度;在每个异常值进行评估,然后进行平均。

有关详细信息,请参阅例如https://en.wikipedia.org/wiki/Information_retrieval

Precision @ 2k是一个人工制品:自动评估会产生高达2k的精确@ k曲线(通常是有趣的区域)。曲线将输出曲线末端的精度;但这通常不是特别有用(您可以手动配置最大k来剪切曲线,但这并不会使这个评估成为一个有趣的k)。我将从课程中删除它;并且也不需要第二次ROCAUC输出(也来自视觉曲线评估)。