我一直在使用KEA监督的方法来提取150个文档(100个训练和50个测试)来提取关键短语。结果让我有些困惑。这是我的分类报告:
precision recall f1-score support
0 0.97 1.00 0.98 29118
1 0.00 0.00 0.00 951
avg / total 0.94 0.97 0.95 30069
我要解释的是1从来没有预测过。您是否认为我没有足够的培训数据?
答案 0 :(得分:3)
问题并不在于您通常有足够的训练数据 ,而是具体而言,第1类的样本数量不足。
从本质上讲,有几种方法可以解决此问题:
通常,这是一项非常艰巨的任务,不太可能突然得到更好的结果,但这肯定会改善您的案子,并帮助您更好地了解具体案子出了什么问题。 还请注意,您添加的有关文档,培训过程等的更多信息(可能是您所使用的实现的参考/链接),可能会为您提供合适的答案。