Question

我很难找到正确的葡萄牙语编码，以便结果正常显示。我最初使用此命令用我的模型标记一个小样本：

PS > java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz -textFile tweets.txt

例如，其中一个短语如下：

Meus paisnaépocaemque eram casados eminhamãe时代万岁！ em Praia De Copacabana - Posto 5。

请参阅例如“época”和“mãe”中的特殊字符，它们在最终结果中如下所示：

Meus / O pais / O na /O├⌐poca/ O em / O que / O eram / O casados / O e / O minha /Om├úe/ O era / O viva / O！/ O ./O em / O Praia / B-LOCATION De / I-LOCATION Copacabana / I-LOCATION - / O Posto / B-LOCATION 5 / I-LOCATION ./O

época=├⌐poca

mãe=m├úe

不是预期的结果。

当我训练一个严重关注的模型时，也会发生这种情况。我尝试使用带有各种选项的-encoding标志：

UTF-8
异8859-15
ISO-8859-1

我通常使用UTF-8或iso-8859-1取得了成功，但这次我的结果与上面显示的结果相同。我确保该文件使用UTF-8编码，也尝试导出到以UTF-8编码的文件，结果相同。

我不知道它是否有影响，但我使用PowerShell来运行命令。

我该怎么做才能解决这个问题？

提前致谢。

编码斯坦福NER的问题。我应该使用哪种编码？

0 个答案: