我已经训练了一个快速文本监督模型。我确实使用pyfasttext python库来预测模型。 例如:我有这样的数据。
text - label
The meeting is planned - event
The work should be finished - task
在这里,模型可以正确预测标签。在计划中或工作词出现在句子中时。但是我列出了与训练数据无关的句子。 例如:狗是动物
res = model.predict_proba_single('the dog is an animal\n')
输出:
[(u'event', 0.49999999904767284)]
输出概率应为0或无标签。因为该句子与所有标签都不相关。标签是多类的。我仅举两个例子。
scikit SGD分类器中也发生了同样的事情。
如何防止这种错误的预测?
答案 0 :(得分:1)
您可以忽略例如小于阈值0.5(50%)的预测输出,这样做您可以提取相关预测或为其他不相关情况打印0或不打印任何标签, 希望有帮助