我目前正在使用tfidf,然后根据内容对多个网站进行分类。不幸的是,我的培训数据并不统一:大约70%的预先标记的网站是新闻网站,而其余的(技术,艺术,娱乐等)都是绝大多数。
我的问题如下:
是否可以调整tfidf,使其对不同的标签进行不同的称重,使其表现得好像数据一致?在这种情况下,我可能会使用不同的方法吗?我目前在tfidf分析后使用高斯朴素贝叶斯分类器,在这种特定情况下还有其他更适合的东西吗?
是否有可能让tfidf给出一个可能的标签列表,当它恰好是给定标签的概率低于某个阈值时?例如,如果矢量条目足够接近,它只是略微(<1-2%),它可能是一个类而不是另一个类,它可以打印两个吗?