我的机器学习目标是从项目需求文档中搜索潜在风险(将花费更多资金)和机会(将节省资金)。
我的想法是将数据中的句子分类为以下类别之一:风险,机会和不相关(没有风险,没有机会,默认类别)。
我将使用多项贝叶斯分类器与tf-dif。
现在我需要为我的训练集和测试集提供数据。我将这样做的方法是用3个类别中的1个标记需求文档中的每个句子。这是一个好方法吗?
或者我应该只标出明显是风险/机会/不相关的句子?
此外,不相关的类别是一个好主意吗?
答案 0 :(得分:1)
我认为三级方法很好。这类似于情绪分析,您通常会有正面,负面和中性的文件(或句子)。中立者包含绝大多数情况,因此您的分类问题将是不平衡的。这不一定是一个问题,但对于像这样的困难问题,一个天真的贝叶斯分类器可能只是将中性/无关桶中的所有内容分类,因为中性的先验将非常高。