我正在进行情绪分析,我正在使用此链接中提供的数据集:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html
我将数据集分成50:50比例。 50%用作测试样本,50%用作训练样本,从火车样本中提取特征并使用Weka分类器进行分类,但我的预测准确率约为70-75%。
任何人都可以建议一些其他可以帮助我增加结果的数据集 - 我使用了unigram,bigram和POStags作为我的功能。
答案 0 :(得分:26)
获取情绪分析数据集有很多来源:
无论如何,这并不意味着它可以帮助您更好地准确当前数据集,因为语料库可能与您的数据集非常不同。除了减少测试百分比与训练之外,您还可以:测试其他分类器或使用CVParameterSelection或GridSearch等半自动包装器对所有超参数进行微调,如果适合的话,甚至可以使用auto-weka。
使用50/50是非常罕见的,80/20是一个非常普遍的比例。更好的做法是使用:60%用于培训,20%用于交叉验证,20%用于测试。
答案 1 :(得分:2)
我开始在一个地方收集情绪分析工具/数据集/词典,它对你也很有用:https://github.com/laugustyniak/awesome-sentiment-analysis
如果您想添加更多内容或只是写信给我,请启动PR。我使用亚马逊数据[数百万条评论]做了很多工作。
答案 2 :(得分:0)
这是一个数据集列表,用于表示单个单词的情绪。 http://positivewordsresearch.com/sentiment-analysis-resources/