从Penn Treebank格式的文本中提取子句

时间:2011-10-24 01:27:38

标签: nlp stanford-nlp

说我有一句话:

After he had eaten the cheese, Bill went to the grocery.

在我的程序中,我得到以下输出:

---PARSE TREE---
(ROOT
  (S
    (SBAR (IN After)
      (S
        (NP (PRP he))
        (VP (VBD had)
          (VP (VBN eaten)
            (NP (DT the) (NN cheese))))))
    (, ,)
    (NP (NNP Bill))
    (VP (VBD went)
      (PP (TO to)
        (NP (DT the) (NN grocery))))
    (. .)))

如何合并不在子句中的内容成为独立的子句?像这样:

S Clause {
    SBAR Clause {
         After he had eaten the cheese,
    }

    S Clause {
        Bill went to the grocery.
    }
}

我很确定我不清楚,但基本上我想提取句子的独立和从属条款,以及这些条款的子条款。

1 个答案:

答案 0 :(得分:1)

以下是NLTK指南中的演示代码(它没有明确说明如何提取子句): http://nltk.googlecode.com/svn/trunk/doc/howto/tree.html