基于代码点调试的字符

时间:2016-02-27 08:31:18

标签: regex r character-encoding stringi

我有一个带有多个编码“错误”的字符向量,我从 it.dbpedia.org 中提取。实际上,每个重音字符的呈现方式都不正确,如"\"Democrazia è Libertà - La Margherita\"@it"而不是\"Democrazia è Libertà - La Margherita\"@it

我找到了这种编码问题here的调试图。我仍然注意到“实际”和“预期”字符之间的关系不是一对一(正如我所料),而是一对多。然后我的角色“Ô可能会翻译为“Á”,“Í”,“Ï”,“Д,“Ý”,“à”。换句话说,我不能将模式/替换解决方案用于实际/预期的字符。

我可以使用带有Unicode代码点/预期字符的模式/替换解决方案吗?如何将gsub()传递给unicode代码点而不是实际字符?

我应该使用stringi代码来解决编码问题吗?怎么样?

更新:我刚刚注意到问题出在源头:SPARQL的XML输出。

注意:与this未答复的问题相关。

0 个答案:

没有答案