应用错误收集

我目前正在使用tfidf，然后根据内容对多个网站进行分类。不幸的是，我的培训数据并不统一：大约70％的预先标记的网站是新闻网站，而其余的（技术，艺术，娱乐等）都是绝大多数。

我的问题如下：

是否可以调整tfidf，使其对不同的标签进行不同的称重，使其表现得好像数据一致？在这种情况下，我可能会使用不同的方法吗？我目前在tfidf分析后使用高斯朴素贝叶斯分类器，在这种特定情况下还有其他更适合的东西吗？
是否有可能让tfidf给出一个可能的标签列表，当它恰好是给定标签的概率低于某个阈值时？例如，如果矢量条目足够接近，它只是略微（<1-2％），它可能是一个类而不是另一个类，它可以打印两个吗？