我正在使用R从旧的数据库中读取数据。这一般工作正常,但在阅读说明时我得到了意想不到的编码。 E.g:
a <- "\U3e34653c"
# is supposed to be
"ä"
我尝试iconv
围绕这个问题我自己,但尽管尝试了很多可能性,但我无法以正确的方式显示它。我的语言环境:en_US.UTF-8。有没有办法替换(子)这样的字符串?
答案 0 :(得分:0)
尝试使用不同的编码字符串打开文件?正如里卡多所暗示的,也许拉丁语1?如果没有其他异国风味的话:
f <- file( "myfile.db" , encoding = "Latin-1" )
dat <- readLines( f )
你能链接到一些数据吗?
答案 1 :(得分:0)
从SQL Server(通过ODBC和RODBC包)提取数据时遇到了同样的问题。我通过更改ODBC驱动程序上的设置来解决它,将所有字符串视为unicode。
更具体地说,我在SQL Server和“高级语言设置”下使用了Actual Technologies ODBC驱动程序。可以指定“将文本类型视为Unicode&#39;可选择多字节文本编码&#39;设置为UTF-8。