应用错误收集

时间：2012-06-18 13:46:37

标签： machine-learning weka data-analysis

我一直在教自己Weka并且已经学会了如何构建模型并从中获取预测（使用CLI进行预测）。

当我对先前构建的模型的数据集运行预测时，我得到一个“预测”列，也称为预测每个实例的预测置信度。

我知道置信度意味着什么，但我的预测不应该是我的Weka模型的准确性吗？

如果我有一个准确率为90％的J48决策树分类器，那么使用这个模型的每个分类实例是否都不应该具有90％的预测置信度？

任何人都知道如何计算这个百分比置信度，或者在告诉其他人我的模型时应该如何阅读错误预测和模型准确性？感谢

答案 0 :(得分：2)

基本上，当决策树在数据集上进行培训时，您经常希望（或者由于缺少要素必须）在每个训练实例上进行过度匹配之前将其停止。发生这种情况时，您将在树中的叶节点上有几个训练样本。通常情况下，训练标签在那时仍然会混合（不是所有正面课程，也不是所有负面课程。）

信心是衡量培训标签在树到达培训实例的叶子时的一致性的一种衡量标准。

编辑：请注意，这也用于以干净和无偏见的方式处理缺失的功能（属性）。

另请参阅Quinlan在决策树方面的一些工作。特别是他在C4.5上的工作

另外：“我知道自信的百分比意味着什么，但我的预测不应该是我的Weka模型的准确性吗？”

不，这不是真的，一些训练样本比其他样本更容易分类，这些分数反映了这一点。