用JAVA中的词汇信息(Head Words)注释树库

时间:2015-02-28 13:38:51

标签: java nlp stanford-nlp lexical-analysis

我为每个句子都有一个带语法分析树的树库,如下所示:

(S(NP(DT)(NN政府))(VP(VBZ费用)(SBAR(IN)(S(PP(IN))(NP(NNP 7月)(CD 1971)) (CC和)(NP(NNP 7月)(CD 1992)))(,,)(NP(NNP Rostenkowski))(VP(VBD放置)(NP(CD 14)(NNS人))(PP(IN on) (NP(NP(PRP $ his)(JJ国会)(NN工资单))(SBAR(WHNP(WP))(S(VP(VBD表演)(NP(NP(JJ个人)(NNS服务))(PP (IN for)(NP(NP(PRP他))(CC和)(NP(PRP $ his)(NN家族)))))))))))))))

我想用解析树中每个节点的词汇信息(如 headwords )注释解析树。

我可以使用StanfordCoreNLP吗?请指导我正确的方向。我更喜欢可以在JAVA中实现的解决方案,因为我熟悉JAVA。

非常感谢!

2 个答案:

答案 0 :(得分:1)

您可以使用TreeTransformer界面进行构建。使用HeadFinder(如果你正在解析英语,CollinsHeadFinder)来检索每个节点的头部字/头部成分。

您可以在解析器中的TreeAnnotator中看到此类工作的示例。

答案 1 :(得分:0)

您可能正在搜索词形推理工具。 StandfordNLP支持它,请参阅Lemmatization java

如何将lemmas包含在现有树库中主要取决于您想要做什么。还有哪些工具可以处理这个树库?特别是,他们期望什么样的格式?等等...