文本分类/机器学习:我还需要一个'默认'类别吗?

时间:2016-11-01 09:11:37

标签: text machine-learning classification naivebayes

对于我的任务,我需要制作一个机器学习程序,该程序执行以下操作:

作为输入,该计划获得项目的建筑计划(用PDF文本编写),主要是桥梁和水闸。机器学习程序将该PDF中的每个句子作为样本(该句子中的单词是特征),并且需要对以下类别之一中的每个样本/句子进行分类:硬件相关和软件相关。 (我将朴素贝叶斯算法与TF-DIF结合使用。)

然而,正如你可以想象的那样,还有许多不相关的句子既不是硬件也不是软件相关的。我是否需要制作一个单独的类别'默认/不相关',以便我总共有三个类别?或者最好只保留两个类别,并根据它们的概率对它们进行分类?例如;一句话被归类为0.6的硬件,然后我忽略它。但如果结果为0.8或更高,那么我将其归类为硬件。

2 个答案:

答案 0 :(得分:1)

你需要在训练集中使用不相关的句子,我将用一个例子解释原因:

如果您有三类分类问题,可以获得此输出:      不相关的95%      硬件4%      软件1%

成为Harware的可能性是软件的4倍。但你显然会选择不相关的。

如果您使用两类数据集,您将获得此输出:      硬件80%      软件20%

作为硬件的可能性再次是软件的4倍,但两个百分比必须总和为100%,因为分类器认为两种可能性都是整个宇宙。

您有两种不同的选择:

1 - 3类分类问题(硬件,软件,不相关)

2 - 两个具有2类分类问题的分类器:

分类器1 - >正类硬件,否定类:软件+不相关

分类器2 - >正类软件,否定类:硬件+不相关

答案 1 :(得分:0)

每种方法都可以使用,具体取决于您将使用多少训练数据。目前我正在开展一个大型项目,实质上,它通过文本执行类似的任务,逐句发送,尽管我使用的是7个类别。我使用了7个标签,所以没有'无关'桶'。我在展示调查结果时会使用thresh hold,所以任何高于0.75的确定性评级,这都可以。使用“无关”桶的问题是你必须训练它是什么'无关',这可能是一个庞大的多样化数据集。所以请选择概率选项。