是否有任何有效的方法可以使用python和NLTK库提取评论的子主题解释。例如,关于手机的用户评论可能是"这款手机的电池是好的,但显示是一个废话" 我想提取上面两个功能,如
"Battery is good"
"display is a bullshit"
上述目的是为了产品的特征而开发产品评级系统。 分析极性部分已经完成。 但是提取评论功能对我来说有些困难。但我找到了一种使用带有正则表达式的POS标签模式提取功能的方法,如
<NN.?><VB.?>?<JJ.?>
这个模式作为子主题。但问题是根据用户描述模式在评论中可能有很多模式。
有没有办法有效地解决我的问题? 谢谢!!
答案 0 :(得分:1)
你提出的问题是多方面的,而不是直截了当的回答。
从概念上讲,您可能需要执行以下步骤:
识别手机功能的名称(+可能会根据这些功能创建本体)。
创建功能名称的同义词列表(类似于评价短语,例如,好,坏,糟糕等)。
使用其中一个NLTK标记来解析评论。
创建用于提取要素及其评估的规则(信息提取部分)。我不确定NLTK能否直接支持你。
评估并改进方法。
或者:创建一个更大的注释语料库,并使用TensorFlow,Theano或其他任何类似的东西训练深度学习模型。