如何使用python& amp;提取评论的子主题句子NLTK?

时间:2017-05-25 05:52:48

标签: python nlp nltk feature-extraction

是否有任何有效的方法可以使用python和NLTK库提取评论的子主题解释。例如,关于手机的用户评论可能是"这款手机的电池是好的,但显示是一个废话" 我想提取上面两个功能,如

"Battery is good"
"display is a bullshit"

上述目的是为了产品的特征而开发产品评级系统。 分析极性部分已经完成。 但是提取评论功能对我来说有些困难。但我找到了一种使用带有正则表达式的POS标签模式提取功能的方法,如

<NN.?><VB.?>?<JJ.?> 

这个模式作为子主题。但问题是根据用户描述模式在评论中可能有很多模式。

有没有办法有效地解决我的问题? 谢谢!!

1 个答案:

答案 0 :(得分:1)

你提出的问题是多方面的,而不是直截了当的回答。

从概念上讲,您可能需要执行以下步骤:

  1. 识别手机功能的名称(+可能会根据这些功能创建本体)。

  2. 创建功能名称的同义词列表(类似于评价短语,例如,好,坏,糟糕等)。

  3. 使用其中一个NLTK标记来解析评论。

  4. 创建用于提取要素及其评估的规则(信息提取部分)。我不确定NLTK能否直接支持你。

  5. 评估并改进方法。

  6. 或者:创建一个更大的注释语料库,并使用TensorFlow,Theano或其他任何类似的东西训练深度学习模型。