我可以使用NLTK来确定评论是肯定的还是消极的?

时间:2010-08-11 22:25:16

标签: nlp nltk

您能否使用http://www.nltk.org/code向我展示一个简单示例,以确定是否有关于心情愉快或心烦的字符串?

4 个答案:

答案 0 :(得分:4)

NLTK无法开箱即用,但如果您正在寻找有关该领域的相关研究,请查看Offensive Language Detection上的这篇论文。可以采用相同的方法来检测不具有攻击性/非攻击性的评论,而是快乐/不快乐。在此项目中用于文本分类的主要软件包称为WEKA,并使用多个分类器(经过前面的示例训练)来确定语言是否具有攻击性(并且在此方法中使用可调阈值)。 p>

答案 1 :(得分:2)

Pattern也值得尝试:你可以在项目主页上看到两个意见挖掘实验。

http://www.clips.ua.ac.be/pages/pattern-examples-100days

http://www.clips.ua.ac.be/pages/pattern-examples-elections

答案 2 :(得分:0)

Nopey。

这项任务远远超出了NLTK或任何已知或可以实际想象的语法分析器的功能。查看NLTK Book,了解它可以完成哪些类型的任务,远远超出您的既定目的。

作为一个便宜的例子:

  

我非常喜欢用你的纸来训练我的狗。

用NLTK解析它,你可以得到

[('I', 'PRP'), ('really', 'RB'), ('enjoyed', 'VBD'), 
 ('using', 'VBG'), ('your', 'PRP$'), ('paper', 'NN'), 
 ('to', 'TO'), ('train', 'VB'), ('my', 'PRP$'), ('dog', 'NN')]

解析树会告诉我'enjoy'是简单句子的中心(过去时)动词。享受一些美好的事物。培训一些东西通常是件好事。 Gerunds,名词,比较等都是相对中立的。所以给这个好成绩0.90。

除了我的意思,我要么用纸张打我的狗,要么让它排出纸张,你可能认为这不是一件好事。

雇用此人进行此识别任务。

为那些想象即使是训练有素的分类器有很多用途的人添加

使用您喜欢的任何数据集训练的任何分类器,从真实客户评论语料库中对此实际条目进行分类:

  

此相机继续自动聚焦   具有嗡嗡声的自动模式   不能停止。真的会   好的,如果他们给了一个选择   停止这个自动聚焦。如果你想   有日期和时间   图像,只有通过他们的   读取图像日期的软件   来自图像的元数据的时间。   所以如果你使用读卡器和   复制图像 - 你必须再次   通过他们的软件打开它们   把日期和时间。在那,也   没有直接的方法来添加日期   和时间    - 你必须说'打印图像'到一个不同的目录   指定日期和时间的选项   。即使是最轻微的震动   完全扭曲你的形象。室内   图像不太清楚。你必须这样做   尽管有闪光'开'才能获得它   你的房间光线充足。镜头盖是   真烦人电影剪辑   拍摄时总会有一些'噪音'   它 - 你无法避免。

我获得的最糟糕的情绪分类是“完全模棱两可”,但人类可以很容易地确定这不是免费的。这不是一个随机挑选的数据,而是一个被选择用于负偏差而没有“讨厌”或“suxz”或类似的数据。

答案 3 :(得分:0)

您正在寻找一种使用机器学习分类器来确定一段文本是正面还是负面的技术。许多研究团队(例如http://research.yahoo.com/pub/2387http://lingcog.iit.edu/doc/appraisal_sentiment_cikm.pdf)在此进行了各种不同的尝试,在确定产品评审是正面还是负面时,我们可以获得大约80%到90%的准确度。 / p>

由于您的问题简洁,对我而言,确定产品评审是积极的还是消极的是您正在尝试完成的任务,还是仅仅是相关的任务,这一点并不明显,但我建议开始简单使用贝叶斯分类器(NLTK应该能够处理)进行词袋分类,然后根据精确度如何改进您的技术。

不幸的是,我从来没有使用过NLTK(也没有Python),所以我不能给你一个代码示例,说明如何使用NLTK。