Question

我已经训练了一个快速文本监督模型。我确实使用pyfasttext python库来预测模型。例如：我有这样的数据。

text - label

The meeting is planned - event
The work should be finished - task

在这里，模型可以正确预测标签。在计划中或工作词出现在句子中时。但是我列出了与训练数据无关的句子。例如：狗是动物

res = model.predict_proba_single('the dog is an animal\n')

输出：

[(u'event', 0.49999999904767284)]

输出概率应为0或无标签。因为该句子与所有标签都不相关。标签是多类的。我仅举两个例子。

scikit SGD分类器中也发生了同样的事情。

如何防止这种错误的预测？

Answer 1

您可以忽略例如小于阈值0.5（50％）的预测输出，这样做您可以提取相关预测或为其他不相关情况打印0或不打印任何标签，希望有帮助