我有一个带有多个编码“错误”的字符向量,我从 it.dbpedia.org 中提取。实际上,每个重音字符的呈现方式都不正确,如"\"Democrazia è Libertà - La Margherita\"@it"
而不是\"Democrazia è Libertà - La Margherita\"@it
。
我找到了这种编码问题here的调试图。我仍然注意到“实际”和“预期”字符之间的关系不是一对一(正如我所料),而是一对多。然后我的角色“Ô可能会翻译为“Á”,“Í”,“Ï”,“Д,“Ý”,“à”。换句话说,我不能将模式/替换解决方案用于实际/预期的字符。
我可以使用带有Unicode代码点/预期字符的模式/替换解决方案吗?如何将gsub()
传递给unicode代码点而不是实际字符?
我应该使用stringi
代码来解决编码问题吗?怎么样?
更新:我刚刚注意到问题出在源头:SPARQL的XML输出。
注意:与this未答复的问题相关。