Question

我一直在使用KEA监督的方法来提取150个文档（100个训练和50个测试）来提取关键短语。结果让我有些困惑。这是我的分类报告：

           precision    recall  f1-score   support

      0       0.97      1.00      0.98     29118
      1       0.00      0.00      0.00       951

avg / total       0.94      0.97      0.95     30069

我要解释的是1从来没有预测过。您是否认为我没有足够的培训数据？

Answer 1

问题并不在于您通常有足够的训练数据，而是具体而言，第1类的样本数量不足。
从本质上讲，有几种方法可以解决此问题：

尝试增加案例1的样本数量：最明显的答案也可能并不现实，因为您可能首先会从更多的训练数据开始。但是有相关的方法，即
数据扩充：我对特定算法不熟悉，因此我无法说总体上是多么容易，但是您可以在示例中添加一些形式的置换，这些置换仍然保留了含义（即代表相同的班级），但差异足以用作“另一个培训样本”。
加权类：根据学习算法的具体情况，您通常还可以指定某种形式的类权重，从而使您可以“惩罚”更多算法，从而对您感兴趣的类进行错误分类内。

通常，这是一项非常艰巨的任务，不太可能突然得到更好的结果，但这肯定会改善您的案子，并帮助您更好地了解具体案子出了什么问题。还请注意，您添加的有关文档，培训过程等的更多信息（可能是您所使用的实现的参考/链接），可能会为您提供合适的答案。

口译分类报告

1 个答案: