培训情绪分析数据

时间:2011-09-26 06:18:54

标签: nlp machine-learning text-analysis sentiment-analysis training-data

我在哪里可以获得已被归类为公司域中情绪的正面/负面的文档集?我想要一大堆文件,为公司提供评论,例如分析师和媒体提供的公司评论。

我找到了对产品和电影进行评论的语料库。是否有业务领域的语料库,包括符合业务语言的公司评论?

6 个答案:

答案 0 :(得分:36)

http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

你可以使用带有表情符号的twitter,如下所示:http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf

希望能让你开始。如果你对特定的子任务感兴趣,比如否定,情感范围等,那么在文献中还有更多内容。

为了专注于公司,您可以将方法与主题检测结合起来,或者只是对一家公司的很多提及。或者您可以通过Mechanical Turkers注释您的数据。

答案 1 :(得分:22)

这是几周前我从my blog写的一个列表。其中一些数据集最近已包含在NLTK Python平台中。

辞书

的数据集

<强>参考文献:

答案 2 :(得分:12)

答案 3 :(得分:4)

如果您有关于要探索的域的一些资源(媒体渠道,博客等),您可以创建自己的语料库。 我在python中这样做:

  • 使用Beautiful Soup http://www.crummy.com/software/BeautifulSoup/来解析我想要分类的内容。
  • 将这些句子分开,表示对公司的正面/负面意见。
  • 使用NLTK处理这些句子,标记单词,POS标记等。
  • 使用NLTK PMI计算仅在一个班级中频繁出现的双字母或三字母

创建语料库是一项预处理,检查,标记等方面的艰苦工作,但具有为特定域准备模型多次提高准确性的好处。如果您已经准备好了语料库,请继续进行情绪分析;)

答案 4 :(得分:1)

我不知道任何此类语料库是免费提供的,但您可以在未标记的数据集上尝试unsupervised method

答案 5 :(得分:0)

您可以从Datafiniti获得大量在线评论。大多数评论都附有评级数据,这将提供更多的情绪粒度而非正/负。这是一个list of businesses with reviews,这里是list of products with reviews