Question

摘要：无法找到用于Lemmatizer的模型文件（english-lemmatizer.txt / english-lemmatizer.bin）

详细信息：OpenNLP Tools Models似乎是Apache OpenNLP库的不同组件所使用的各种模型的综合存储库。但是，我找不到与lemmatizer一起使用的模型文件 en-lemmatizer.txt 。 Apache OpenNLP开发人员手册为Lemmatization步骤提供了以下代码片段：

InputStream dictLemmatizer = null;

try (dictLemmatizer = new FileInputStream("english-lemmatizer.txt")) {

}

但是，与其他模型文件不同，我只是无法找到此模型文件的位置。任何指针将不胜感激。

Answer 1

您要的是en-lemmatizer.bin，而不是english-lemmatizer.txt

Answer 2

Richard M. Reese的书“使用Java Cookbook进行自然语言处理”提供了一个很好的答案。由于某种原因，en-lemmatizer.bin无法从网络上直接下载，但是可以使用以下步骤创建：

下载并解压缩apache-opennlp-1.9.0-bin.tar（https://opennlp.apache.org/download.html）
转到Lemmatizer Training File的URL并将文本内容另存为 en-lemmatizer.dict
转到bin目录（解压缩后从第1步开始），然后执行以下命令：

opennlp LemmatizerTrainerME -model en-lemmatizer.bin -lang en -data /path/to/en-lemmatizer.dict -encoding UTF-8

注意：准备处理以下错误：

Computing event counts... Exception in thread "main" java.lang.OutOfMemoryError: Java heap space

OpenNLP：无法找到Lemmatizer的模型文件

2 个答案: