R字符串编码西里尔字母

时间:2017-12-21 09:30:36

标签: r encoding iconv cyrillic

我的数据库中似乎有一些西里尔字符串存储为UTF-8。但是我需要使用R来恢复西里尔文。

例如,在数据库中,它存储为:Москва。我需要的是1. iconv(x, "UTF-8", "CP1251") # I get NA 2. iconv(x, "CP1251", "UTF-8") # I get ûûû \"òƸл°¸»ª¿-õƸƺ±Ð\"

我尝试了一些使用iconv的东西,但不确定我是否需要首先双重转换字符串:

id  o_num   d_num
69af4bf986c4df522afb54da6512bdc5    5   5
69af6111de53b550b0d13f86398b59e5    19  19
69b264c4b93a1984450689b16807b293    10  10
69b26c0fb38ff1cd2d4b01696aa14883    20  20
69b5c46bdc8a8f49f913d9d2325f0a76    15  15
69b71276a69dece5630ed3405ceca411    1   6
69b790c7937602e8fd52bc4d28194625    5   17
69b7bfde4effdaf31d362165a23a8dd0    4   13
69b93626a799636aef2ab3567cf3a110    14  14

我假设我需要先将字符串从UTF-8恢复为西里尔字母,但我得到NA。

帮助表示赞赏

1 个答案:

答案 0 :(得分:0)

enc2nativeenc2utf8将字符向量的元素分别转换为本机编码或UTF-8,并考虑任何标记的编码。它们是原始函数,旨在进行最小化复制。