我正在使用Naive Bayes分类器进行客户支持的情绪分析。但遗憾的是,我在客户支持域中没有大量带注释的数据集。但是我在同一个域中有少量注释数据(大约100个正数和100个负数)。我也有亚马逊产品评论数据集。
无论如何,我是否可以使用mahout实施加权朴素贝叶斯分类器,这样我就可以为小型客户支持数据提供更多权重,并为亚马逊产品评论数据提供较小的权重。对上述加权数据集的培训将极大地提高我的准确性。请帮助我。
答案 0 :(得分:1)
一种非常简单的方法是过采样。即,您只需多次重复训练数据中的客户支持示例。
虽然这不是同一个问题,但你可以通过研究用于类不平衡的方法来获得一些进一步的想法;特别是过采样(如上所述)和欠采样。