将自由文本语句与预定义属性相关联

时间:2011-12-16 23:01:10

标签: nlp

我列出了人们关注的几十个产品属性,例如

  • 融资
  • 制造质量
  • 耐久性
  • 销售经验

客户关于该产品的数百万条自由文本声明,例如

  

“融资很容易,但房屋很脆弱。”

我想根据每个自由文本语句与每个属性的相关程度,以及这是一个正面还是负面的关联来评分。

在给定的示例中,与Financing存在强烈的正相关关系,与Manufacturing quality存在强烈的负相关关系。

感觉这类问题可能是自然语言编程(NLP)的领域。然而,我花了几个小时阅读OpenNLP和NLTK之类的东西,发现有太多特定领域的术语,我无法弄清楚在哪里集中解决这个特定的问题。

所以我的三部分问题:

  • NLP是解决此类问题的正确途径吗?
  • NLP的哪个方面应该专注于学习这个特定的问题?
  • 我有没有考虑过其他选择?

3 个答案:

答案 0 :(得分:2)

您可能会发现的资源是SentiWordNet。 (http://sentiwordnet.isti.cnr.it/)这就像是一个字词的情感等级的字典。它会告诉你它认为一个词是积极的,消极的还是客观的。

然后,您可以将其与一些nltk代码结合起来,这些代码通过您的句子查找您想要将情绪与之相关联的单词。因此,您可以编写一个脚本来获取一些有意义的文本块,这些文本围绕着您正在查看的单词,可能是句子或子句级别。然后你可以通过周围的单词获得另一个东西,并从SentiWordNet获取所有的情绪分数。

我有一些旧代码可以执行此操作,如果您愿意,可以放在github上,但您仍需要自己提出SentiWordNet请求。

答案 1 :(得分:2)

我猜你的问题更多的是关联而不仅仅是分类。现在继续这个假设:

NLP是解决此类问题的正确途径吗?

NLP的哪个方面应该专注于学习这个特定的问题?

我有没有考虑过替代方案?

关于NLP的自动机理论的深入研究将对你有所帮助,它帮助我掌握了很多像OpenNLP这样的实现。

答案 2 :(得分:1)

是的,这是一个名为Sentiment analysis的NLP问题。情感分析是一个活跃的研究领域,具有不同的方法和许多其他NLP方法必须协同工作的任务,所以它当然不是开始使用NLP的最简单的领域。

可以在Pang & Lee (2008)中找到或多或少近期对该领域学术研究的调查。