Question

我在SQL Server中有一个表，其中填充了一些编码不正确的字符。当我有源时，我发现源也有问题。我没有正确编码的数据（即这些数据的正确表示）。我希望编码系统之间存在一对一的关系，所以我可以解析字符并找到正确的编码。

到目前为止，我部分能够编码，但显然是错误的，例如见下文

Autã³Noma De Ciudad Juã¡Rez - ＆gt; Auta3Noma De Ciudad Jua!Rez
Plutarco ElÃas Calle - ＆gt; Plutarco ElA-as Calles
Tecnolã³Gico - ＆gt; Tecnola3Gico

我用R做了这个，

iconv('GÃ¡lvez QuiÃ±ones', to='ASCII//TRANSLIT')
[1] "GA!lvez QuiA?ones"

如你所见，我还没有成功。你认为正确编码这些错误编码的字符在R，Python或SQL Server中是否可行？

Answer 1

嘿，这是一个 PARTIAL 解决方案，即它没有很好地处理/修复一些字符（例如上标-3，反向感叹号，A与〜）。但它适用于其他2.我使用iconv并更改了to编码。

universidades<- c("Autã³Noma De Ciudad Juã¡Rez", 
         "Plutarco ElÃas Calle", "Tecnolã³Gico", "GÃ¡lvez QuiÃ±ones")
universidades
    [1] "Autã³Noma De Ciudad Juã¡Rez" "Plutarco ElÃas Calle"      
    [3] "Tecnolã³Gico"                "GÃ¡lvez QuiÃ±ones"          
iconv(universidades, to="latin-9")
    [1] "Aut\xe3\xb3Noma De Ciudad Ju\xe3\xa1Rez"
    [2] "Plutarco Elías Calle"                   
    [3] "Tecnol\xe3\xb3Gico"                     
    [4] "Gálvez Quiñones"

如何修复错误编码的字符串？

1 个答案: