如何在OpenNLP中初始化令牌模型?

时间:2014-07-28 15:56:29

标签: java file-io download opennlp

我用Java编写了一个名词短语提取器,我试图使用OpenNLP库来标记名词。不幸的是,OpenNLP的文档非常令人困惑。目前,我只是将一串英文文本标记出来。文档让我使用类似的东西初始化令牌模型:

InputStream modelIn = new FileInputStream("en-token.bin");

try {
TokenizerModel model = new TokenizerModel(modelIn);
}
catch (IOException e) {
   e.printStackTrace();
}
finally {
  if (modelIn != null) {
    try {
      modelIn.close();
    }
    catch (IOException e) {
    }
 }
}

Tokenizer tokenizer = new TokenizerME(model);

String tokens[] = tokenizer.tokenize("An input sample sentence.");

我在这里感到困惑的是" en-token.bin"是,我在哪里可以找到它。它应该包含在原始下载的压缩文件中吗?或者我是否必须从OpenNLP的网站下载它?

以下是文档的链接:https://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html#tools.tokenizer

您可以给我的任何帮助将非常感激。提前谢谢!

1 个答案:

答案 0 :(得分:1)

您可以在http://opennlp.sourceforge.net/models-1.5/找到模型。由于许可原因,它们不属于Apache的原始下载。