摘要:无法找到用于Lemmatizer的模型文件(english-lemmatizer.txt / english-lemmatizer.bin)
详细信息:OpenNLP Tools Models似乎是Apache OpenNLP库的不同组件所使用的各种模型的综合存储库。但是,我找不到与lemmatizer一起使用的模型文件 en-lemmatizer.txt 。 Apache OpenNLP开发人员手册为Lemmatization步骤提供了以下代码片段:
InputStream dictLemmatizer = null;
try (dictLemmatizer = new FileInputStream("english-lemmatizer.txt")) {
}
但是,与其他模型文件不同,我只是无法找到此模型文件的位置。任何指针将不胜感激。
答案 0 :(得分:0)
您要的是en-lemmatizer.bin,而不是english-lemmatizer.txt
答案 1 :(得分:0)
Richard M. Reese的书“使用Java Cookbook进行自然语言处理”提供了一个很好的答案。由于某种原因,en-lemmatizer.bin无法从网络上直接下载,但是可以使用以下步骤创建:
下载并解压缩apache-opennlp-1.9.0-bin.tar
(https://opennlp.apache.org/download.html)
转到Lemmatizer Training File的URL并将文本内容另存为 en-lemmatizer.dict
转到bin目录(解压缩后从第1步开始),然后 执行以下命令:
opennlp LemmatizerTrainerME -model en-lemmatizer.bin -lang en -data /path/to/en-lemmatizer.dict -encoding UTF-8
注意:准备处理以下错误:
Computing event counts... Exception in thread "main" java.lang.OutOfMemoryError: Java heap space