情绪分析的良好数据集?

时间:2014-07-07 08:04:10

标签: dataset sentiment-analysis web-mining

我正在进行情绪分析,我正在使用此链接中提供的数据集:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html我将数据集分成50:50比例。 50%用作测试样本,50%用作训练样本,从火车样本中提取特征并使用Weka分类器进行分类,但我的预测准确率约为70-75%。

任何人都可以建议一些其他可以帮助我增加结果的数据集 - 我使用了unigram,bigram和POStags作为我的功能。

3 个答案:

答案 0 :(得分:26)

获取情绪分析数据集有很多来源:

无论如何,这并不意味着它可以帮助您更好地准确当前数据集,因为语料库可能与您的数据集非常不同。除了减少测试百分比与训练之外,您还可以:测试其他分类器或使用CVParameterSelection或GridSearch等半自动包装器对所有超参数进行微调,如果适合的话,甚至可以使用auto-weka。

使用50/50是非常罕见的,80/20是一个非常普遍的比例。更好的做法是使用:60%用于培训,20%用于交叉验证,20%用于测试。

答案 1 :(得分:2)

我开始在一个地方收集情绪分析工具/数据集/词典,它对你也很有用:https://github.com/laugustyniak/awesome-sentiment-analysis

如果您想添加更多内容或只是写信给我,请启动PR。我使用亚马逊数据[数百万条评论]做了很多工作。

答案 2 :(得分:0)

这是一个数据集列表,用于表示单个单词的情绪。 http://positivewordsresearch.com/sentiment-analysis-resources/