R:如何处理混合了latin-1字符的原始/字节字符

时间:2018-11-08 14:09:37

标签: r encoding utf-8 byte

我有一些电子邮件,其中æ,Æ,ø,Ø,å,Å是 raw 而不是latin-1个字符。

# My string
my_string = "Den vedh=E6ftede"

# Should be
"Den vedhæftede fil"

# Raw character for E6
> charToRaw("æ")
[1] e6

除了执行字符串替换以外,是否有其他方法可以将数据转换回正确的格式?

# Naive solution (with potential problems)
> gsub("=E6", "æ", "Den vedh=E6ftede")
[1] "Den vedhæftede"

如果电子邮件中自然存在“ = E6”,则字符串替换会出现问题。

有什么建议吗?

0 个答案:

没有答案