编码斯坦福NER的问题。我应该使用哪种编码?

时间:2017-09-14 00:31:56

标签: java powershell encoding stanford-nlp

我很难找到正确的葡萄牙语编码,以便结果正常显示。我最初使用此命令用我的模型标记一个小样本:

PS > java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz -textFile tweets.txt

例如,其中一个短语如下:

  

Meus paisnaépocaemque eram casados eminhamãe时代万岁! em Praia De Copacabana - Posto 5。

请参阅例如“época”和“mãe”中的特殊字符,它们在最终结果中如下所示:

  

Meus / O pais / O na /O├⌐poca/ O em / O que / O eram / O casados / O e / O minha /Om├úe/ O era / O viva / O!/ O   ./O   em / O Praia / B-LOCATION De / I-LOCATION Copacabana / I-LOCATION - / O Posto / B-LOCATION 5 / I-LOCATION ./O

época=├⌐poca

mãe=m├úe

不是预期的结果。

当我训练一个严重关注的模型时,也会发生这种情况。我尝试使用带有各种选项的-encoding标志:

  • UTF-8
  • 异8859-15
  • ISO-8859-1

我通常使用UTF-8或iso-8859-1取得了成功,但这次我的结果与上面显示的结果相同。 我确保该文件使用UTF-8编码,也尝试导出到以UTF-8编码的文件,结果相同。

我不知道它是否有影响,但我使用PowerShell来运行命令。

我该怎么做才能解决这个问题?

提前致谢。

0 个答案:

没有答案