我一直在阅读很多文章,这些文章解释了在情绪分析系统真正起作用之前需要一组初级文本,这些文本被归类为“正面”或“负面”。
我的问题是:有没有人试图对“正面”形容词与“否定”形容词进行初步检查,同时考虑到任何简单的否定词以避免将“不快乐”归类为正面?如果是这样,是否有任何文章讨论为什么这种策略不现实?
答案 0 :(得分:61)
A classic paper by Peter Turney(2002)解释了一种方法,只使用优秀和穷这些词作为种子进行无监督情绪分析(正面/负面分类)组。 Turney使用mutual information这两个形容词的其他单词来达到74%的准确率。
答案 1 :(得分:17)
我没有尝试过像你所描述的那样进行未经训练的情绪分析,但是在我的头脑中,我会说你过分简化了这个问题。简单地分析形容词并不足以很好地掌握文本的情感;例如,考虑“愚蠢”这个词。单独,你会把它归类为负面,但如果产品评论是“...... [x]产品让他们的竞争对手看起来很愚蠢,因为没有先考虑这个特征......”那么那里的情绪肯定是积极的。单词出现的更大背景在这样的事情中肯定很重要。这就是为什么一个未经训练的词袋单独处理(更不用说一个更有限的形容词包)不足以解决这个问题。
预先分类的数据(“训练数据”)有助于解决问题从尝试确定文本是否从头开始具有正面或负面情绪,到试图确定文本是否与正面文本或负面文本,并以这种方式对其进行分类。另一个重点是情感分析等文本分析往往受到依赖于领域的文本特征差异的极大影响。这就是为什么要训练一组好的数据(也就是说,你工作的领域内的准确数据,并希望代表你将要分类的文本)与建立一个好的一样重要。系统分类。
不完全是一篇文章,但希望有所帮助。
答案 2 :(得分:7)
larsmans提到的Turney(2002)的论文是一个很好的基础论文。在一项较新的研究中,Li and He [2009]引入了一种方法,使用Latent Dirichlet Allocation(LDA)来训练一个模型,该模型可以完全无人监督的方式同时对文章的整体情绪和主题进行分类。他们达到的准确率为84.6%。
答案 3 :(得分:2)
我尝试使用影响词典来识别关键词,以预测句子级别的情绪标签。鉴于词汇的一般性(非域依赖),结果只有约61%。该论文可在我的主页上找到。
在一个稍微改进的版本中,考虑了否定副词。整个系统名为EmoLib,可用于演示:
http://dtminredis.housing.salle.url.edu:8080/EmoLib/
此致
答案 4 :(得分:2)
大卫,
我不确定这是否有帮助,但你可能想看看Jacob Perkin的blog post使用NLTK进行情绪分析。
答案 5 :(得分:2)
我在评论中尝试了几种用于意见挖掘的情感分析方法。 对我来说最有效的是刘书中所描述的方法:http://www.cs.uic.edu/~liub/WebMiningBook.html在本书刘和其他人中,比较了许多策略并讨论了关于情感分析和意见挖掘的不同论文。
虽然我的主要目标是提取意见中的功能,但我实施了情感分类器来检测此功能的正面和负面分类。
我使用NLTK进行预处理(Word标记化,POS标记)和三元组创建。然后我也使用了这个内部的贝叶斯分类器来与刘先生精确定位的其他策略进行比较。
其中一种方法依赖于标记为pos / neg的每个trigrram表达此信息,并对此数据使用一些分类器。 我尝试的其他方法,并且工作得更好(我的数据集中的准确率大约为85%),是计算句子中每个单词的PMI(准时互信息)得分总和以及单词 excellent / poor 作为pos / neg类的种子。
答案 6 :(得分:0)
在情绪分析中没有神奇的“捷径”,就像任何其他类型的文本分析一样,它试图发现一大块文本的潜在“关注”。尝试通过简单的“形容词”检查或类似方法来简化经过验证的文本分析方法会导致模糊性,不正确的分类等,在一天结束时,您会对情绪的准确性进行较差的阅读。来源(例如Twitter)越简洁,问题就越困难。