在java中使用opennlp提取名词短语

时间:2015-01-30 12:14:59

标签: java nlp text-processing opennlp

我试图从句子中提取名词短语。我正在使用opennlp librari" en-parser-chunking.bin"。

代码示例:

 ArrayList<opennlp.tools.parser.Parse> nounPhrases = new ArrayList<>();

 searchmethod("what is the nickname of the British flag?");
 for(int t =0; t<50; t++)
 {
     str= text.get(t);
     InputStream is = new FileInputStream("en-parser-chunking.bin");
     ParserModel model = new ParserModel(is);
     opennlp.tools.parser.Parser parser = ParserFactory.create(model);
     opennlp.tools.parser.Parse[] topParses = ParserTool.parseLine(str, parser, 1);
     for (opennlp.tools.parser.Parse p : topParses){
          p.show();
          if (p.getType().equals("NP")) {
              nounPhrases.add(p);
          }
     }                                        
  }

使用此代码,我得到以下结果:

(TOP (S (NP (NP (DT The) (NN nickname)) (PP (IN for) (NP (DT the) (JJ British) (NN flag)))) (VP (VBZ is) (NP (NP (DT the) (NNP Union) (NNP Jack.)) (SBAR (IN Although) (S (NP (PRP it)) (VP (VBZ is) (ADVP (RB only) (RB correctly)) (VP (VBN known) (PP (IN as) (NP (DT this) (NN when) (NN flown))) (PP (IN on) (NP (DT a) (NN ship.)))))))))))  

我如何从该结果中提取名词短语?

非常感谢任何帮助。

2 个答案:

答案 0 :(得分:1)

您可以从中提取NP,但是http://opennlp.sourceforge.net/models-1.5/en-chunker.bin处的模型只是分块(即名词短语检测),没有语法。这可能更容易使用(但它需要标记化和POS标记步骤才能运行)。

答案 1 :(得分:0)

嗨,我同意answer的观点,但是如果您看到的输出非常接近,则在已识别的树中就会出现问题,这将导致树检测出错误的块。

在上面的示例中,有一个PP被标识为错误,因为飞行永远不会是NN。我认为正确的postagging是关键。如果您需要了解如何纠正后agging,请告诉我。 谢谢。

(PP 
    (IN as) 
        (NP 
            (DT this) (NN when) (NN flown)
        )
    )
)