Question

我正在使用R从旧的数据库中读取数据。这一般工作正常，但在阅读说明时我得到了意想不到的编码。 E.g：

a <- "\U3e34653c"
# is supposed to be 
"ä"

我尝试iconv围绕这个问题我自己，但尽管尝试了很多可能性，但我无法以正确的方式显示它。我的语言环境：en_US.UTF-8。有没有办法替换（子）这样的字符串？

Answer 1

尝试使用不同的编码字符串打开文件？正如里卡多所暗示的，也许拉丁语1？如果没有其他异国风味的话：

f <- file( "myfile.db" , encoding = "Latin-1" )
dat <- readLines( f )

你能链接到一些数据吗？

Answer 2

从SQL Server（通过ODBC和RODBC包）提取数据时遇到了同样的问题。我通过更改ODBC驱动程序上的设置来解决它，将所有字符串视为unicode。

更具体地说，我在SQL Server和“高级语言设置”下使用了Actual Technologies ODBC驱动程序。可以指定“将文本类型视为Unicode＆＃39;可选择多字节文本编码＆＃39;设置为UTF-8。