对于我的任务,我需要制作一个机器学习程序,该程序执行以下操作:
作为输入,该计划获得项目的建筑计划(用PDF文本编写),主要是桥梁和水闸。机器学习程序将该PDF中的每个句子作为样本(该句子中的单词是特征),并且需要对以下类别之一中的每个样本/句子进行分类:硬件相关和软件相关。 (我将朴素贝叶斯算法与TF-DIF结合使用。)
然而,正如你可以想象的那样,还有许多不相关的句子既不是硬件也不是软件相关的。我是否需要制作一个单独的类别'默认/不相关',以便我总共有三个类别?或者最好只保留两个类别,并根据它们的概率对它们进行分类?例如;一句话被归类为0.6的硬件,然后我忽略它。但如果结果为0.8或更高,那么我将其归类为硬件。
答案 0 :(得分:1)
你需要在训练集中使用不相关的句子,我将用一个例子解释原因:
如果您有三类分类问题,可以获得此输出: 不相关的95% 硬件4% 软件1%
成为Harware的可能性是软件的4倍。但你显然会选择不相关的。
如果您使用两类数据集,您将获得此输出: 硬件80% 软件20%
作为硬件的可能性再次是软件的4倍,但两个百分比必须总和为100%,因为分类器认为两种可能性都是整个宇宙。
您有两种不同的选择:
1 - 3类分类问题(硬件,软件,不相关)
2 - 两个具有2类分类问题的分类器:
分类器1 - >正类硬件,否定类:软件+不相关
分类器2 - >正类软件,否定类:硬件+不相关
答案 1 :(得分:0)
每种方法都可以使用,具体取决于您将使用多少训练数据。目前我正在开展一个大型项目,实质上,它通过文本执行类似的任务,逐句发送,尽管我使用的是7个类别。我使用了7个标签,所以没有'无关'桶'。我在展示调查结果时会使用thresh hold,所以任何高于0.75的确定性评级,这都可以。使用“无关”桶的问题是你必须训练它是什么'无关',这可能是一个庞大的多样化数据集。所以请选择概率选项。