Elki的评估

时间:2016-02-02 17:51:25

标签: outliers unsupervised-learning elki

我知道ELKI目前只包含无监督的异常检测方法,因此Elki不会在训练集和测试集中划分输入数据。 但是,我已经看到评估是在可用时进行的。我想知道:

  1. elki是否将所有输入数据用于评估?
  2. 运行时是考虑评估还是培训时间?
  3. 为了评估排名,评估会考虑异常值得分以估计误报率和真阳性率吗?
  4. 例如,在LOF算法中,假设正常类中的实例具有较高的LOF分数。会不会在评估中考虑误报或真正的积极因素?
  5. 谢谢!

1 个答案:

答案 0 :(得分:1)

  1. 是的,所有输入都用于无监督的方法。

    标签不得用于运行算法,它们仅在评估时使用。

  2. 报告的运行时分别针对每种算法。

  3. 这取决于您的评估。大多数度量(例如ROC AUC)仅考虑排名。要评估实际分数,首先需要对它们进行标准化。对于考虑(标准化)分数的措施,请参阅

      

    电子。 Schubert,R。Wojdanowski,A。Zimek,H.-P。 Kriegel 评估异常值排名和异常值分数
    在第12届SIAM国际数据挖掘会议(SDM)会议记录中,加利福尼亚州阿纳海姆市:1047-1058,2012。 / p>

  4. 真阳性和假阳性需要二元决策。请参阅ROC AUC,了解不需要指定阈值以使决策成为二进制的方法,而是评估所有可能的阈值。