我想对LOF进行测试,显示它如何管理数据集的密集稀疏问题。在ELKI数据生成器的教程中,我展示了如何使用4个集群从像这样的xml文件创建数据集:
<dataset random-seed="1" test-model="1">
<cluster name="Dense" size="290">
<normal mean="0.5" stddev="0.2"/>
<normal mean="0.5" stddev="0.2"/>
<clip min="0 0" max="1 1"/>
</cluster>
<cluster name="Sparse" size="100">
<normal mean="0.25" stddev="0.05"/>
<normal mean="0.75" stddev="0.05"/>
<clip min="0 0" max="1 1"/>
</cluster>
<cluster name="Middle" size="100">
<normal mean="0.75" stddev="0.05"/>
<normal mean="0.75" stddev="0.05"/>
<clip min="0 0" max="1 1"/>
</cluster>
<cluster name="Noise" size="10" density-correction="50">
<uniform min="0" max="1"/>
<uniform min="0" max="1"/>
</cluster>
</dataset>
但是如何控制异常值呢? ELKI工具希望异常值的少数标签显示ROCAUC曲线。我从xml文件中获取的文件只是数据集中的一个点文件。
我是否应该制作一个情节并自己识别异常值并在它们之后加上是或否,以说它们是否是异常值并将少数标签设置为是,是异常值还是有更简单的方法?
答案 0 :(得分:1)
ELKI 默认使用最小的类进行评估。 (您可以以不同方式配置评估!)
如果异常值超过数据的5%,ELKI将发出警告,因为假设异常值很少(实际上它们应远小于5%)。
因此,在您的数据集上,ELKI应默认使用&#34; Noise&#34;作为异常类。
在您的配置中,Noise
应该是数据集的2%,因此不应该发出警告。它应该只是开箱即用。