我对Liu Bing的“情感分析和意见挖掘”这本书非常着迷,我已经实现了一个获取文本方面的小程序。
我通过Hu在我的文本中查找了正面和负面单词列表,并使用nltk.tokenizer找到了最接近情感单词旁边的名词或人称代词。结果非常有趣,但我正在努力检测否定和背景。
亚马逊的例子:
“我喜欢辛辣的拉面,但无论出于什么原因,这个东西都会严重烧伤我的肚子,灼热的感觉不会消失3个小时!不确定这是否健康......你可以买这个在沃尔玛以0.28美元的价格,比亚马逊便宜。“
我的程序返回元组列表(“情感词”,“方面”,“情绪”)。 1表示积极情绪,0表示负面情绪。
[(u'love', u'i', 1),
(u'love', u'spicy', 1),
(u'burns', u'thing', 0),
(u'badly', u'stomach', 0),
(u'burning', u'stomach', 0),
(u'sensation', u'stomach', 1),
(u'healthy', u'healthy', 1),
(u'cheaper', u'way', 1)]
似乎该方法可以捕捉某些方面,但远非正确。此外,我与刘的例子(第23页)相距甚远:
我买了一台三星相机,我的朋友带了佳能相机 昨天。 (2)在过去的一周里,我们都经常使用相机。 (3) 来自Samy的照片并不那么棒,电池寿命也是如此 也很短。 (4)我的朋友对他的相机非常满意并且喜欢它 图像质量。 (5)我想要一台能拍出好照片的相机。 (6)我 我明天要回来了
我真的想改进,以便我可以正确地捕捉方面和情绪。我知道这是一个非常普遍的问题,但你能推荐一些包裹并给我读书吗?
最好也非常感谢 亚历