regex - 基于代码点调试的字符

我有一个带有多个编码“错误”的字符向量，我从 it.dbpedia.org 中提取。实际上，每个重音字符的呈现方式都不正确，如"\"Democrazia Ã¨ LibertÃ - La Margherita\"@it"而不是\"Democrazia è Libertà - La Margherita\"@it。

我找到了这种编码问题here的调试图。我仍然注意到“实际”和“预期”字符之间的关系不是一对一（正如我所料），而是一对多。然后我的角色“Ã”可能会翻译为“Á”，“Í”，“Ï”，“Ð”，“Ý”，“à”。换句话说，我不能将模式/替换解决方案用于实际/预期的字符。

我可以使用带有Unicode代码点/预期字符的模式/替换解决方案吗？如何将gsub()传递给unicode代码点而不是实际字符？

我应该使用stringi代码来解决编码问题吗？怎么样？

更新：我刚刚注意到问题出在源头：SPARQL的XML输出。

注意：与this未答复的问题相关。

基于代码点调试的字符

0 个答案: