我在从uci下载的名为shuttle的数据集上运行本地异常值因子。每次我在有或没有决策类的穿梭数据集上运行lof算法但elki正在绘制不同的输出图。我很困惑每次绘制不同输出图的原因是什么?
答案 0 :(得分:0)
可视化使用Apache Batik,它需要复杂的XML文档(准确地说是SVG)以及Batik的渲染树都在内存中。
这使得可视化不是很可扩展,并且有参数
-vis.sampling
默认为10000 的样本。因此,对于较大的数据集,您每次都会看到不同的样本可视化。当然,它仍然使用所有数据进行分析。添加一个参数来修复随机种子会相当容易,但人们往往会抱怨参数太多......
对于更适合异常值检测的航天飞机数据集的变体,请参阅此站点:
http://www.dbs.ifi.lmu.de/research/outlier-evaluation/DAMI/literature/Shuttle/
请注意,要正确读取文件,您需要参数-arff.externalid id -arff.classlabel outlier
,以便id列不用于分析,异常值标签列仅用作评估类。