text - 文本分类/机器学习：我还需要一个'默认'类别吗？

文本分类/机器学习：我还需要一个'默认'类别吗？

时间：2016-11-01 09:11:37

标签： text machine-learning classification naivebayes

对于我的任务，我需要制作一个机器学习程序，该程序执行以下操作：

作为输入，该计划获得项目的建筑计划（用PDF文本编写），主要是桥梁和水闸。机器学习程序将该PDF中的每个句子作为样本（该句子中的单词是特征），并且需要对以下类别之一中的每个样本/句子进行分类：硬件相关和软件相关。（我将朴素贝叶斯算法与TF-DIF结合使用。）

然而，正如你可以想象的那样，还有许多不相关的句子既不是硬件也不是软件相关的。我是否需要制作一个单独的类别'默认/不相关'，以便我总共有三个类别？或者最好只保留两个类别，并根据它们的概率对它们进行分类？例如;一句话被归类为0.6的硬件，然后我忽略它。但如果结果为0.8或更高，那么我将其归类为硬件。

2 个答案:

答案 0 :(得分：1)

你需要在训练集中使用不相关的句子，我将用一个例子解释原因：

如果您有三类分类问题，可以获得此输出：不相关的95％硬件4％软件1％

成为Harware的可能性是软件的4倍。但你显然会选择不相关的。

如果您使用两类数据集，您将获得此输出：硬件80％软件20％

作为硬件的可能性再次是软件的4倍，但两个百分比必须总和为100％，因为分类器认为两种可能性都是整个宇宙。

您有两种不同的选择：

1 - 3类分类问题（硬件，软件，不相关）

2 - 两个具有2类分类问题的分类器：

分类器1 - ＆gt;正类硬件，否定类：软件+不相关

分类器2 - ＆gt;正类软件，否定类：硬件+不相关

答案 1 :(得分：0)

每种方法都可以使用，具体取决于您将使用多少训练数据。目前我正在开展一个大型项目，实质上，它通过文本执行类似的任务，逐句发送，尽管我使用的是7个类别。我使用了7个标签，所以没有'无关'桶'。我在展示调查结果时会使用thresh hold，所以任何高于0.75的确定性评级，这都可以。使用“无关”桶的问题是你必须训练它是什么'无关'，这可能是一个庞大的多样化数据集。所以请选择概率选项。