我已经构建了一个小文本分析模型,它将小文本文件分类为好,坏或中性。我使用支持向量机作为我的分类器。但是,我想知道如果不是将所有三个分类,我可以归类为好或坏,但如果对该文本文件的支持低于.7或某个用户指定的阈值,则会将该文本文件归类为中性。我知道这并不是最好的方式,我只是想看看如果采取不同的方法会发生什么。
答案 0 :(得分:0)
运营商Drop Uncertain Predictions
可能就是您想要的。
将模型应用于某些测试数据后,生成的示例集将具有预测和两个名为confidence(Good)
和confidence(Bad)
的新属性。这些置信度介于0和1之间,对于两个类的情况,对于示例集中的每个示例,它们将总和为1。最高的置信度决定了预测的价值。
Drop Uncertain Predictions
运算符需要min confidence
参数,并且如果找到的最大置信度低于此值,则会将预测设置为缺失(对于更高级的调查,您也可以对不同的类值具有不同的置信度)。
然后,您可以使用Replace Missing Values
运算符将所有缺失的预测更改为您选择的文本值。