我使用MultinomialNB使用20个域训练了我的分类器。
分类器适用于20个训练有素的数据集。
但问题是,假设我使用20个域中的文本进行查询,即使它对该文本进行分类。我预计超出域输入的概率为0。
e.g。
查询:'核心i7是英特尔处理器'
我使用域religion
,sports
,astronomy
域训练了数据。
查询不属于任何这些域,即使它为任何域提供33%的结果。
类似地查询:'在哪里',也被归类为上述域名。
如何为属于域外的查询显示0结果?或任何scikit函数,它给出了域外概率余量的多少?
还有什么办法可以在查询中查看stopwords
的边距吗?
答案 0 :(得分:1)
如果你训练区分3个标签,那么每个输入都会得到这三个标签中的一个。
你可以为“所有不能归类为宗教,体育,天文学的东西”添加额外的标签。
然后,您可以将该标签用作“检测到的域外”。