Penn Treebank格式没有注释名词短语的内部结构,例如
(NP (JJ crude) (NN oil) (NNS prices))
或
(NP
(NP (DT the) (JJ big) (JJ blue) (NN house))
(SBAR
(WHNP (WDT that))
(S
(VP (VBD was)
(VP (VBN built)
(PP (IN near)
(NP (DT the) (NN river)))))))
我想提取头(价格和房子)。你知道任何可以做到这一点的工具吗?
答案 0 :(得分:9)
Michael Collins dissertation(附录A)包括Penn Treebank的寻找规则,这些规则工作得相当好并且难以实施。然而,它们远非完美,因为它不是最简单的任务。
David Vadas和James Curran关于Penn Treebank中NP结构的工作也可能是相关的:
答案 1 :(得分:1)
正如aab所建议的那样,简单的确定性头部发现规则可以很好地工作(也可以参考Magerman或Charniak针对类似方法的头部发现规则)。
您还可以考虑从组成树中提取依赖关系结构。斯坦福工具集做得非常好: 见http://nlp.stanford.edu/software/stanford-dependencies.shtml
答案 2 :(得分:1)
您还可以在Dan Bikel的论文中找到英语的头部查找规则(如果您需要源代码,可以在他的主页上找到解析器软件)