我用Java编写了一个名词短语提取器,我试图使用OpenNLP库来标记名词。不幸的是,OpenNLP的文档非常令人困惑。目前,我只是将一串英文文本标记出来。文档让我使用类似的东西初始化令牌模型:
InputStream modelIn = new FileInputStream("en-token.bin");
try {
TokenizerModel model = new TokenizerModel(modelIn);
}
catch (IOException e) {
e.printStackTrace();
}
finally {
if (modelIn != null) {
try {
modelIn.close();
}
catch (IOException e) {
}
}
}
Tokenizer tokenizer = new TokenizerME(model);
String tokens[] = tokenizer.tokenize("An input sample sentence.");
我在这里感到困惑的是" en-token.bin"是,我在哪里可以找到它。它应该包含在原始下载的压缩文件中吗?或者我是否必须从OpenNLP的网站下载它?
以下是文档的链接:https://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html#tools.tokenizer
您可以给我的任何帮助将非常感激。提前谢谢!