二元分类的准确度低于50%

时间:2018-05-03 14:33:34

标签: machine-learning binary floating-accuracy text-classification

我正在平衡数据集上训练Naive Bayes分类器,其中有相同数量的正面和负面示例。在测试时,我依次计算正类,负类和组成负类的子集中的例子的准确性。然而,对于负类的一些子集,我得到的精度值低于50%,即随机猜测。我想知道,我是否应该担心这些结果远低于50%?谢谢!

2 个答案:

答案 0 :(得分:-1)

您是否更担心低于50%,因为它是" 二进制分类" ?

  

准确性更多取决于训练数据

如果您使用数据{1,2,3,4,6}作为奇数(0级)和{2,4,5,6}作为偶数(1级)训练模型,您将无法获得准确预测" 8"。

您的问题"我想知道,我是否应该担心这些结果远低于50%?"

我的意见:担心培训数据,使用可以更好地区分实际类别的优秀数据来训练模型。

答案 1 :(得分:-1)

如果没有具体细节,完全回答这个问题是不可能的,所以这里只是指导方针:

如果您的数据集具有相同数量的类,那么随机猜测将平均提供50%的准确度。

要明确的是,您确定您的模型已经在您的训练数据集中学习了某些东西吗?训练数据集的准确度是否高于50%?如果是,请继续阅读。

假设您的验证集大到足以排除统计波动,那么低于50%的准确度表明您的模型确实存在问题。

例如,您的类是否在验证数据集中以某种方式意外切换?因为请注意,如果您使用1 - model.predict(x),您的准确率将高于50%。