我正在研究问题解决方案,我正在从Twitter和Facebook收集社交资讯,以获取产品X 。我正在使用五个标签标记这些帖子,评论或推文
--Positive
--Negative
--Campaign
--Reply
--Queries
我有一个大约5000的训练集,包括推文,Facebook帖子和评论。 但是这些训练集是不平衡的,并且有更多的负面和竞选数据。以下是情绪清单及其数量:
--Positive--> 492
--Negative--> 2193
--Campaign--> 1422
--Reply--> 430
--Queries--> 922
我正在使用Naive Bayes来预测这些情绪。正如您所看到的,上述训练集是高度不平衡的,有什么方法可以用这些训练集来改进我的模型。 任何改进我的预测模型的建议都会有所帮助。
我正在使用Mahout来构建这个预测模型。
谢谢