我正在尝试使用R的openNLP包为西班牙语文本运行POS标记功能。我以前使用英文文本模型运行相同的功能,但似乎在openNLP页面中没有西班牙语POS标记的官方模型(http://opennlp.sourceforge.net/models-1.5/)
我发现之前的一个问题指向了我尝试使用的西班牙语POS标记模型(Java OpenNLP version 1.5.3. Spanish models),但是当我尝试使用其中可用的任何模型时,我收到以下错误消息: / p>
word_token_annotator <- Maxent_Word_Token_Annotator(model = 'opennlp-es-perceptron-pos-es.bin')
然而:
Error in .jnew("opennlp.tools.tokenize.TokenizerModel", .jcast(.jnew("java.io.FileInputStream", :
java.lang.IllegalArgumentException: opennlp.tools.util.InvalidFormatException: The TokenizerME cannot load a model for the POSTaggerME!
我认为该github repo中可用的二进制文件的格式不是“Maxent_Word_Token_Annotator”所期望的格式。
您知道我如何解决这个问题,或者您是否知道我可以插入代码的任何其他西班牙语POS标记模型?
非常感谢您的帮助。