OpenNLP:无法找到Lemmatizer的模型文件

时间:2019-03-28 06:08:59

标签: opennlp lemmatization

摘要:无法找到用于Lemmatizer的模型文件(english-lemmatizer.txt / english-lemmatizer.bin)

详细信息OpenNLP Tools Models似乎是Apache OpenNLP库的不同组件所使用的各种模型的综合存储库。但是,我找不到与lemmatizer一起使用的模型文件 en-lemmatizer.txt 。 Apache OpenNLP开发人员手册为Lemmatization步骤提供了以下代码片段:

InputStream dictLemmatizer = null;

try (dictLemmatizer = new FileInputStream("english-lemmatizer.txt")) {

}

但是,与其他模型文件不同,我只是无法找到此模型文件的位置。任何指针将不胜感激。

2 个答案:

答案 0 :(得分:0)

您要的是en-lemmatizer.bin,而不是english-lemmatizer.txt

答案 1 :(得分:0)

Richard M. Reese的书“使用Java Cookbook进行自然语言处理”提供了一个很好的答案。由于某种原因,en-lemmatizer.bin无法从网络上直接下载,但是可以使用以下步骤创建:

  1. 下载并解压缩apache-opennlp-1.9.0-bin.tarhttps://opennlp.apache.org/download.html

  2. 转到Lemmatizer Training File的URL并将文本内容另存为 en-lemmatizer.dict

  3. 转到bin目录(解压缩后从第1步开始),然后 执行以下命令:

opennlp LemmatizerTrainerME -model en-lemmatizer.bin -lang en -data /path/to/en-lemmatizer.dict -encoding UTF-8


注意:准备处理以下错误:

Computing event counts... Exception in thread "main" java.lang.OutOfMemoryError: Java heap space