如何为4个类别的文本分类创建培训数据

时间:2016-09-12 06:53:37

标签: text machine-learning classification naivebayes

我的机器学习目标是从项目需求文档中搜索潜在风险(将花费更多资金)和机会(将节省资金)。

我的想法是将数据中的句子分类为以下类别之一:风险,机会和不相关(没有风险,没有机会,默认类别)。

我将使用多项贝叶斯分类器与tf-dif。

现在我需要为我的训练集和测试集提供数据。我将这样做的方法是用3个类别中的1个标记需求文档中的每个句子。这是一个好方法吗?

或者我应该只标出明显是风险/机会/不相关的句子?

此外,不相关的类别是一个好主意吗?

1 个答案:

答案 0 :(得分:1)

我认为三级方法很好。这类似于情绪分析,您通常会有正面,负面和中性的文件(或句子)。中立者包含绝大多数情况,因此您的分类问题将是不平衡的。这不一定是一个问题,但对于像这样的困难问题,一个天真的贝叶斯分类器可能只是将中性/无关桶中的所有内容分类,因为中性的先验将非常高。

  • 您的抽样(标签)应该代表现实。不要尝试创建1000风险,1000机会,1000无关的数据集。取而代之的是,采取10000个要求的样本,并为每个要求分配适当的标签,即使这意味着拥有更多“不相关”的标签。而不是'风险'例如。
  • 文本分类模型需要很多实例,因为搜索空间很大。我想知道你是否考虑过要获得可靠的结果(比如超过90%),你可能需要手动标记数千个实例。
  • 即使您有数千个培训实例,您的问题看起来也特别困难,除非有一些明显的关键字可以触发'风险'或者机会'我不明白。问问自己:这对人类判断是否容易?如果您要求3名评委对您的要求进行分类,他们是否会得出相同的答案?如果没有,那么您可能需要数以万计的培训文档,分类准确性可能仍然令人失望。