LOF上的输出图更改

时间:2017-02-22 06:34:55

标签: machine-learning data-mining elki

我在从uci下载的名为shuttle的数据集上运行本地异常值因子。每次我在有或没有决策类的穿梭数据集上运行lof算法但elki正在绘制不同的输出图。我很困惑每次绘制不同输出图的原因是什么?

1 个答案:

答案 0 :(得分:0)

可视化使用Apache Batik,它需要复杂的XML文档(准确地说是SVG)以及Batik的渲染树都在内存中。

这使得可视化不是很可扩展,并且有参数

-vis.sampling

默认为10000 的样本。因此,对于较大的数据集,您每次都会看到不同的样本可视化。当然,它仍然使用所有数据进行分析。添加一个参数来修复随机种子会相当容易,但人们往往会抱怨参数太多......

对于更适合异常值检测的航天​​飞机数据集的变体,请参阅此站点:

http://www.dbs.ifi.lmu.de/research/outlier-evaluation/DAMI/literature/Shuttle/

请注意,要正确读取文件,您需要参数-arff.externalid id -arff.classlabel outlier,以便id列不用于分析,异常值标签列仅用作评估类。