NLP:定性“正面”与“否定”句

时间:2008-09-23 17:51:48

标签: nlp text-analysis

我需要你的帮助,以确定分析行业特定句子(即电影评论)的“正面”与“负面”的最佳方法。我以前见过像OpenNLP这样的图书馆,但它太低级了 - 它只是给了我基本的句子构成;我需要的是更高级别的结构: - 希望用单词表 - 希望我的数据集可以训练

谢谢!

2 个答案:

答案 0 :(得分:23)

您正在寻找的内容通常被称为Sentiment Analysis。通常,情绪分析无法处理微妙的细微之处,例如讽刺或讽刺,但如果你扔掉大量的数据,它就会很好。

情绪分析通常需要相当多的预处理。至少是标记化,句子边界检测和词性标注。有时,语法分析可能很重要。正确地完成它是计算语言学研究的一个完整分支,除非你花时间先研究这个领域,否则我不建议你提出自己的解决方案。

OpenNLP有一些辅助情绪分析的工具,但是如果你想要更严肃的东西,你应该查看LingPipe工具包。它有一些内置的SA功能和一个不错的tutorial。你可以用你自己的数据集训练它,但不要认为它完全是微不足道的: - )。

谷歌搜索该术语可能也会为您提供一些资源。如果您有任何更具体的问题,请问,我正在密切关注nlp-tag; - )

答案 1 :(得分:6)

情绪分析的一些方法使用在其他文本分类任务中流行的策略。最常见的是将您的电影评论转换为单词向量,并将其作为训练数据提供给分类器算法。最受欢迎的数据挖掘包可以帮助您。您可以查看此tutorial on sentiment classification,了解如何使用开源RapidMiner toolkit进行实验。

顺便提一下,有good data set可用于研究目的,与检测电影评论意见有关。它基于IMDB用户评论,您可以检查该区域的许多related research work以及它们如何使用数据集。

值得注意的是,这些方法的有效性只能从统计学角度来判断,所以你几乎可以假设存在错误分类和难以发现意见的情况。正如在这个帖子中已经注意到的那样,检测诸如反讽和讽刺之类的事情确实非常困难。