可以对tfidf进行权衡以改进语料库中稀疏数据的分类吗?

时间:2014-12-16 11:52:10

标签: classification tf-idf document-classification

我目前正在使用tfidf,然后根据内容对多个网站进行分类。不幸的是,我的培训数据并不统一:大约70%的预先标记的网站是新闻网站,而其余的(技术,艺术,娱乐等)都是绝大多数。

我的问题如下:

  1. 是否可以调整tfidf,使其对不同的标签进行不同的称重,使其表现得好像数据一致?在这种情况下,我可能会使用不同的方法吗?我目前在tfidf分析后使用高斯朴素贝叶斯分类器,在这种特定情况下还有其他更适合的东西吗?

  2. 是否有可能让tfidf给出一个可能的标签列表,当它恰好是给定标签的概率低于某个阈值时?例如,如果矢量条目足够接近,它只是略微(<1-2%),它可能是一个类而不是另一个类,它可以打印两个吗?

0 个答案:

没有答案