以下是R内存中数据编码的片段。 CSV文件使用编码" Latin-1"使用data.table::fread
。
正如这篇文章所暗示的那样,数据存储有不同的编码,这是不可取的,因为我会将数据留在SQLite数据库中,因此每当我将数据发送到数据库并将其调回时,都不会读取Latin-1适当。有没有办法规范这个?
一旦数据在data.frame的不同部分中有多个编码,似乎常见的函数如iconv
就无法工作。
Encoding(Data$DESC)
[5305] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"
[5311] "unknown" "unknown" "unknown" "latin1" "unknown" "unknown"
[5317] "unknown" "latin1" "latin1" "latin1" "latin1" "unknown"
[5323] "latin1" "latin1" "latin1" "latin1" "unknown" "latin1"