名词短语的头部发现规则

时间:2012-04-24 11:55:56

标签: parsing nlp

Penn Treebank格式没有注释名词短语的内部结构,例如

(NP (JJ crude) (NN oil) (NNS prices))

(NP
    (NP (DT the) (JJ big) (JJ blue) (NN house))
    (SBAR
      (WHNP (WDT that))
      (S
        (VP (VBD was)
          (VP (VBN built)
            (PP (IN near)
              (NP (DT the) (NN river)))))))

我想提取头(价格和房子)。你知道任何可以做到这一点的工具吗?

3 个答案:

答案 0 :(得分:9)

Michael Collins dissertation(附录A)包括Penn Treebank的寻找规则,这些规则工作得相当好并且难以实施。然而,它们远非完美,因为它不是最简单的任务。

David Vadas和James Curran关于Penn Treebank中NP结构的工作也可能是相关的:

答案 1 :(得分:1)

正如aab所建议的那样,简单的确定性头部发现规则可以很好地工作(也可以参考Magerman或Charniak针对类似方法的头部发现规则)。

您还可以考虑从组成树中提取依赖关系结构。斯坦福工具集做得非常好: 见http://nlp.stanford.edu/software/stanford-dependencies.shtml

答案 2 :(得分:1)

您还可以在Dan Bikel的论文中找到英语的头部查找规则(如果您需要源代码,可以在他的主页上找到解析器软件)