在R中加载openNLP西班牙语模型POS标签时出错

时间:2017-11-02 19:40:51

标签: r nlp opennlp pos-tagger

我正在尝试使用R的openNLP包为西班牙语文本运行POS标记功能。我以前使用英文文本模型运行相同的功能,但似乎在openNLP页面中没有西班牙语POS标记的官方模型(http://opennlp.sourceforge.net/models-1.5/

我发现之前的一个问题指向了我尝试使用的西班牙语POS标记模型(Java OpenNLP version 1.5.3. Spanish models),但是当我尝试使用其中可用的任何模型时,我收到以下错误消息: / p>

word_token_annotator <- Maxent_Word_Token_Annotator(model = 'opennlp-es-perceptron-pos-es.bin')

然而:

Error in .jnew("opennlp.tools.tokenize.TokenizerModel", .jcast(.jnew("java.io.FileInputStream",  : 
  java.lang.IllegalArgumentException: opennlp.tools.util.InvalidFormatException: The TokenizerME cannot load a model for the POSTaggerME!

我认为该github repo中可用的二进制文件的格式不是“Maxent_Word_Token_Annotator”所期望的格式。

您知道我如何解决这个问题,或者您是否知道我可以插入代码的任何其他西班牙语POS标记模型?

非常感谢您的帮助。

0 个答案:

没有答案