应用错误收集

我正在研究问题解决方案，我正在从Twitter和Facebook收集社交资讯，以获取产品X 。我正在使用五个标签标记这些帖子，评论或推文

--Positive
--Negative
--Campaign 
--Reply
--Queries

我有一个大约5000的训练集，包括推文，Facebook帖子和评论。但是这些训练集是不平衡的，并且有更多的负面和竞选数据。以下是情绪清单及其数量：

--Positive--> 492
--Negative--> 2193
--Campaign--> 1422
--Reply--> 430
--Queries--> 922

我正在使用Naive Bayes来预测这些情绪。正如您所看到的，上述训练集是高度不平衡的，有什么方法可以用这些训练集来改进我的模型。任何改进我的预测模型的建议都会有所帮助。

我正在使用Mahout来构建这个预测模型。

谢谢