我很难找到正确的葡萄牙语编码,以便结果正常显示。我最初使用此命令用我的模型标记一个小样本:
PS > java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz -textFile tweets.txt
例如,其中一个短语如下:
Meus paisnaépocaemque eram casados eminhamãe时代万岁! em Praia De Copacabana - Posto 5。
请参阅例如“época”和“mãe”中的特殊字符,它们在最终结果中如下所示:
Meus / O pais / O na /Oépoca/ O em / O que / O eram / O casados / O e / O minha /Omãe/ O era / O viva / O!/ O ./O em / O Praia / B-LOCATION De / I-LOCATION Copacabana / I-LOCATION - / O Posto / B-LOCATION 5 / I-LOCATION ./O
época=├⌐poca
mãe=m├úe
不是预期的结果。
当我训练一个严重关注的模型时,也会发生这种情况。我尝试使用带有各种选项的-encoding标志:
我通常使用UTF-8或iso-8859-1取得了成功,但这次我的结果与上面显示的结果相同。 我确保该文件使用UTF-8编码,也尝试导出到以UTF-8编码的文件,结果相同。
我不知道它是否有影响,但我使用PowerShell来运行命令。
我该怎么做才能解决这个问题?
提前致谢。