用于文本中情绪检测的数据集

时间:2015-06-08 07:34:55

标签: database dataset nlp text-mining emotion

我正在实施一个可以检测文本中人类情感的系统。是否有任何手动注释的数据集可用于监督学习和测试?

以下是一些有趣的数据集: https://dataturks.com/projects/trending

1 个答案:

答案 0 :(得分:37)

文本情感检测领域仍然很新,文献在不同领域的许多不同期刊中都是分散的。在那里很难看清楚。

注意,有几种情绪理论心理学。因此,在计算中有不同的建模/表示情绪的方式。大多数时候,“情绪”指的是诸如愤怒,恐惧或快乐之类的现象。其他理论认为所有的情感都可以在多维空间中表现出来(因此存在无数的情感)。

以下是我知道(更新)的一些(公开的)数据集:

  1. EmoBank。用Valence,Arousal和Dominance值注释的10k句子(披露:我是其中一位作者)。 https://github.com/JULIELab/EmoBank

  2. WASSA 2017共享任务中的“推文中的情绪强度”数据集。 http://saifmohammad.com/WebPages/EmotionIntensity-SharedTask.html

  3. 由Preotiuc-Pietro和。的Valence和Arousal Facebook帖子 其他: http://wwbp.org/downloads/public_data/dataset-fb-valence-arousal-anon.csv

  4. Cecilia Ovesdotter Alm的影响数据: http://people.rc.rit.edu/~coagla/affectdata/index.html

  5. CrowdFlower设置的文本数据中的情感 https://www.crowdflower.com/wp-content/uploads/2016/07/text_emotion.csv

  6. ISEAR: http://emotion-research.net/toolbox/toolboxdatabase.2006-10-13.2581092615

  7. SemEval 2007测试语料库(情感文本任务) http://web.eecs.umich.edu/~mihalcea/downloads.html

  8. 使用情感重新注释SemEval Stance数据: http://www.ims.uni-stuttgart.de/data/ssec

  9. 如果你想深入讨论这个话题,我推荐的是一些调查(披露:我是第一个编写的)。

    1. Buechel,S。,&哈恩,美国(2016年)。作为回归问题的情绪分析 - 维度模型及其对情绪表征和度量评价的启示。在ECAI 2016.22nd欧洲人工智能会议(第1114-1122页)。荷兰海牙(提供:http://ebooks.iospress.nl/volumearticle/44864)。

    2. Canales,L。,& Martínez-Barco,P。(n.d。)。文本情感检测:一项调查。处理第五届信息系统研究工作日(JISIC 2014),37(可用:http://www.aclweb.org/anthology/W14-6905)。