scikit学习分类不相关(域外)数据

时间:2014-09-03 10:38:23

标签: machine-learning scikit-learn classification bayesian

我使用MultinomialNB使用20个域训练了我的分类器。

分类器适用于20个训练有素的数据集。

但问题是,假设我使用20个域中的文本进行查询,即使它对该文本进行分类。我预计超出域输入的概率为0。

e.g。

查询:'核心i7是英特尔处理器'

我使用域religionsportsastronomy域训练了数据。

查询不属于任何这些域,即使它为任何域提供33%的结果。

类似地查询:'在哪里',也被归类为上述域名。

如何为属于域外的查询显示0结果?或任何scikit函数,它给出了域外概率余量的多少?

还有什么办法可以在查询中查看stopwords的边距吗?

1 个答案:

答案 0 :(得分:1)

如果你训练区分3个标签,那么每个输入都会得到这三个标签中的一个。

你可以为“所有不能归类为宗教,体育,天文学的东西”添加额外的标签。

然后,您可以将该标签用作“检测到的域外”。