我可以通过ELKI运行不同k的LOF,这样可以很容易地比较哪个k最好吗?
通常你选择一个k,然后你就可以看到ROCAUC了。我想为数据集取出最好的k,所以我需要比较多次运行。我可以比手动更改k的值和运行更容易吗?我想比较所有k = [1-100]。
由于
答案 0 :(得分:0)
Greedy Ensemble显示了如何使用ComputeKNNOutlierScores
一次有效地运行整个k范围的离群值检测方法(通过仅计算最近邻点一次,它会快得多!) ELKI附带的申请。
应用程序EvaluatePrecomputedOutlierScores
可用于使用多种方法批量评估这些结果。
这是我们用于出版物的内容
-G。 O. Campos,A。Zimek,J。Sander,R。J. G. B. Campello,B。Micenková,E。Schubert,I。Assent和M. E. Houle
On the Evaluation of Unsupervised Outlier Detection: Measures, Datasets, and an Empirical Study
数据挖掘与知识发现30(4):891-927,2016,DOI:10.1007 / s10618-015-0444-8
在supplementary material website上,您可以查找许多标准数据集的最佳结果,并下载原始结果。
但要注意异常值检测质量结果往往是不确定的。在一个数据集上,一个方法表现最佳,另一个数据集另一个方法。没有明显的赢家,因为数据集非常多样化。