Question

这个问题困扰了一年。我的R在打开包含简化的中文字符的csv文件时遇到问题。我相信数据编码为 GBK 。我有三台具有不同语言和操作系统的计算机，在打开相同的中文csv文件时有混合结果。有人能告诉我为什么结果会有所不同吗？

（1）Windows +英语操作系统+英语R和R工作室： UNABLE 读取我的csv，即使我将其编码为UTF8，GBK，并且您将其命名为中文编码。
（2）Mac + EnglishOS +英语R： ABLE 在不强制编码的情况下阅读中文csv（更新：我将操作系统重新安装到El Caption后，无法打开我的csv正确）
（3）Windows +中文操作系统，+中文R： ABLE 读取csv而不强制编码或gbk
（4）Windows +英文操作系统，+中文R： UNABLE
（5）Ubuntu英语操作系统，英语R： ABLE
在Windows案例（英文和中文操作系统）中，笔记本可以正确打开csv但是excel不能在英文案例中。当我无法用excel打开我的csv时，我的r也不能。
如果我通过Google表收集csv，我的excel可以打开我的csv但R仍然不行。

R中的编码如何工作，为什么结果会随着操作系统Lanuage而改变？

 read.csv(...,encoding=)

Answer 1

它可能与excel csv编码系统有关。如果您的Windows操作系统是Englihs。 excel可能无法正确打开cvs。一个解决方法是使用谷歌纯粹或Ubuntu安装表将其汇总到csv并尝试使用r打开它。

Answer 2

我已经想出如何解决。它处理包含简体中文字符的大于800M的大文件。关键是您应该知道操作系统中的默认中文编码。

Ubuntu使用UTF-8作为默认的中文编码。所以你应该把它编码为UTF-8而不是GB18130或其他GB开始编码。

这应解决您的文件大小问题和编码问题。你甚至不强迫编码。正常read.csv可行。