这个问题困扰了一年。我的R在打开包含简化的中文字符的csv文件时遇到问题。我相信数据编码为 GBK 。我有三台具有不同语言和操作系统的计算机,在打开相同的中文csv文件时有混合结果。有人能告诉我为什么结果会有所不同吗?
(2)Mac + EnglishOS +英语R: ABLE 在不强制编码的情况下阅读中文csv(更新:我将操作系统重新安装到El Caption后,无法打开我的csv正确)
(3)Windows +中文操作系统,+中文R: ABLE 读取csv而不强制编码或gbk
R中的编码如何工作,为什么结果会随着操作系统Lanuage而改变?
read.csv(...,encoding=)
答案 0 :(得分:1)
它可能与excel csv编码系统有关。如果您的Windows操作系统是Englihs。 excel可能无法正确打开cvs。一个解决方法是使用谷歌纯粹或Ubuntu安装表将其汇总到csv并尝试使用r打开它。
答案 1 :(得分:0)
我已经想出如何解决。它处理包含简体中文字符的大于800M的大文件。关键是您应该知道操作系统中的默认中文编码。
Ubuntu使用UTF-8作为默认的中文编码。所以你应该把它编码为UTF-8而不是GB18130或其他GB开始编码。
(1)下载Open Office(免费安装快速,有更高版本 文件大小比Ubuntu中的Cals)。
(2)检测您的CSV编码。只需使用Open office打开您的csv,然后选择一种显示您的中文字符的编码方法。
(3)根据您的要求将csv保存到正确的编码系统 操作系统。对于中文和Ubuntu,默认Windows是GBK UTF8。
这应解决您的文件大小问题和编码问题。你甚至不强迫编码。正常read.csv
可行。