应用错误收集

情绪分析的良好数据集？

时间：2014-07-07 08:04:10

标签： dataset sentiment-analysis web-mining

我正在进行情绪分析，我正在使用此链接中提供的数据集：http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html我将数据集分成50:50比例。 50％用作测试样本，50％用作训练样本，从火车样本中提取特征并使用Weka分类器进行分类，但我的预测准确率约为70-75％。

任何人都可以建议一些其他可以帮助我增加结果的数据集 - 我使用了unigram，bigram和POStags作为我的功能。

3 个答案:

答案 0 :(得分：26)

获取情绪分析数据集有很多来源：

storage.googleapis.com/books/ngrams/books/datasetsv2.html

巨大的ngrams数据集
http://www.sananalytics.com/lab/twitter-sentiment/
http://inclass.kaggle.com/c/si650winter11/data
http://nlp.stanford.edu/sentiment/treebank.html
或者您可以查看此全球ML数据集存储库：https://archive.ics.uci.edu/ml

无论如何，这并不意味着它可以帮助您更好地准确当前数据集，因为语料库可能与您的数据集非常不同。除了减少测试百分比与训练之外，您还可以：测试其他分类器或使用CVParameterSelection或GridSearch等半自动包装器对所有超参数进行微调，如果适合的话，甚至可以使用auto-weka。

使用50/50是非常罕见的，80/20是一个非常普遍的比例。更好的做法是使用：60％用于培训，20％用于交叉验证，20％用于测试。

答案 1 :(得分：2)

我开始在一个地方收集情绪分析工具/数据集/词典，它对你也很有用：https://github.com/laugustyniak/awesome-sentiment-analysis

如果您想添加更多内容或只是写信给我，请启动PR。我使用亚马逊数据[数百万条评论]做了很多工作。

答案 2 :(得分：0)

这是一个数据集列表，用于表示单个单词的情绪。 http://positivewordsresearch.com/sentiment-analysis-resources/