口译分类报告

时间:2018-09-06 08:39:44

标签: python machine-learning

我一直在使用KEA监督的方法来提取150个文档(100个训练和50个测试)来提取关键短语。结果让我有些困惑。这是我的分类报告:

           precision    recall  f1-score   support

      0       0.97      1.00      0.98     29118
      1       0.00      0.00      0.00       951

avg / total       0.94      0.97      0.95     30069

我要解释的是1从来没有预测过。您是否认为我没有足够的培训数据?

1 个答案:

答案 0 :(得分:3)

问题并不在于您通常有足够的训练数据 ,而是具体而言,第1类的样本数量不足
 从本质上讲,有几种方法可以解决此问题:

  • 尝试增加案例1的样本数量:最明显的答案也可能并不现实,因为您可能首先会从更多的训练数据开始。但是有相关的方法,即
  • 数据扩充:我对特定算法不熟悉,因此我无法说总体上是多么容易,但是您可以在示例中添加一些形式的置换,这些置换仍然保留了含义(即代表相同的班​​级),但差异足以用作“另一个培训样本”。
  • 加权类:根据学习算法的具体情况,您通常还可以指定某种形式的类权重,从而使您可以“惩罚”更多算法,从而对您感兴趣的类进行错误分类内。

通常,这是一项非常艰巨的任务,不太可能突然得到更好的结果,但这肯定会改善您的案子,并帮助您更好地了解具体案子出了什么问题。 还请注意,您添加的有关文档,培训过程等的更多信息(可能是您所使用的实现的参考/链接),可能会为您提供合适的答案。