我在哪里可以获得已被归类为公司域中情绪的正面/负面的文档集?我想要一大堆文件,为公司提供评论,例如分析师和媒体提供的公司评论。
我找到了对产品和电影进行评论的语料库。是否有业务领域的语料库,包括符合业务语言的公司评论?
答案 0 :(得分:36)
http://www.cs.cornell.edu/home/llee/data/
http://mpqa.cs.pitt.edu/corpora/mpqa_corpus
你可以使用带有表情符号的twitter,如下所示:http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf
希望能让你开始。如果你对特定的子任务感兴趣,比如否定,情感范围等,那么在文献中还有更多内容。
为了专注于公司,您可以将方法与主题检测结合起来,或者只是对一家公司的很多提及。或者您可以通过Mechanical Turkers注释您的数据。
答案 1 :(得分:22)
这是几周前我从my blog写的一个列表。其中一些数据集最近已包含在NLTK Python平台中。
刘冰的意见词典
MPQA主观性词典
<强> SentiWordNet 强>
哈佛大将军询问者
语言查询和单词计数(LIWC)
Vader Lexicon
MPQA数据集
注意:GNU公共许可证。
Sentiment140 (推文)
STS-Gold (推文)
客户评论数据集 (商品评论)
包含在NLTK Python平台
利弊数据集 (利弊句)
<pros>
或<cons>
包含在NLTK Python平台
比较句 (评论)
包含在NLTK Python平台
Sanders Analytics Twitter Sentiment Corpus (推文)
5513手分类推文有4个不同的主题。由于Twitter的ToS,包含一个小的Python脚本来下载所有的推文。情绪分类本身是免费提供的,没有任何限制。它们可用于商业产品。它们可能会被重新分配。它们可能会被修改。
西班牙语推文 (推文)
SemEval 2014 (推文)
您不得重新分发推文,注释或获得的语料库(来自自述文件)
各种数据集 (评论)
各种数据集#2 (评论)
<强>参考文献:强>
答案 2 :(得分:12)
以下是其他一些内容;
http://inclass.kaggle.com/c/si650winter11
http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html
答案 3 :(得分:4)
如果您有关于要探索的域的一些资源(媒体渠道,博客等),您可以创建自己的语料库。 我在python中这样做:
创建语料库是一项预处理,检查,标记等方面的艰苦工作,但具有为特定域准备模型多次提高准确性的好处。如果您已经准备好了语料库,请继续进行情绪分析;)
答案 4 :(得分:1)
我不知道任何此类语料库是免费提供的,但您可以在未标记的数据集上尝试unsupervised method。
答案 5 :(得分:0)
您可以从Datafiniti获得大量在线评论。大多数评论都附有评级数据,这将提供更多的情绪粒度而非正/负。这是一个list of businesses with reviews,这里是list of products with reviews。