我目前正在使用在线旅游评论开展一个方面级别的情绪分析项目。
我使用Stanford CoreNLP
来完成任务。到目前为止,我已经设法通过POS标记预处理数据并将评论内容简化为。
我阅读了几篇与情绪分析相关的论文,看起来下一步是从评论文本中提取方面术语,以及他们的情感极性。我在Python NLTK中看过一个视频教程,其中使用正则表达式来查找关系在POS标记的单词之间找到名词短语等我想用Stanford Dependency解析器做同样的事。
不幸的是,我不明白如何使用Stanford Dependency Parser的输出编写这样的规则来识别方面术语。
两天来,我一直在寻找一个示例Java代码,它可以解释我是如何完成这项任务的。但到目前为止,没有运气。
如果有人能指点我的教程/示例代码,我可以看看并理解程序,真的很感激。
假设我的输出类似于以下内容;
(ROOT
(S
(NP (PRP It))
(VP (VBZ is) (RB not)
(NP
(NP (DT a) (NN museum))
(PP (CC but)
(NP
(NP (DT a) (VBG living) (JJ historic) (NN town))
(PP (IN with)
(NP (JJ wonderful) (NNS places)))
(S
(VP (TO to)
(VP
(VP (VB eat)
(NP (NN drink)))
(CC and)
(VP (VB do)
(NP (NN shopping))))))))))
如何提取博物馆,吃,饮用,购物作为方面?
非常感谢任何帮助。