PC / MAC / Ubuntu

时间:2016-07-12 02:43:46

标签: r excel csv utf-8

这个问题困扰了一年。我的R在打开包含简化的中文字符的csv文件时遇到问题。我相信数据编码为 GBK 。我有三台具有不同语言和操作系统的计算机,在打开相同的中文csv文件时有混合结果。有人能告诉我为什么结果会有所不同吗?

  • (1)Windows +英语操作系统+英语R和R工作室: UNABLE 读取我的csv,即使我将其编码为UTF8,GBK,并且您将其命名为中文编码。
  • (2)Mac + EnglishOS +英语R: ABLE 在不强制编码的情况下阅读中文csv(更新:我将操作系统重新安装到El Caption后,无法打开我的csv正确)

  • (3)Windows +中文操作系统,+中文R: ABLE 读取csv而不强制编码或gbk

  • (4)Windows +英文操作系统,+中文R: UNABLE
  • (5)Ubuntu英语操作系统,英语R: ABLE
  • 在Windows案例(英文和中文操作系统)中,笔记本可以正确打开csv但是excel不能在英文案例中。当我无法用excel打开我的csv时,我的r也不能。
  • 如果我通过Google表收集csv,我的excel可以打开我的csv但R仍然不行。

R中的编码如何工作,为什么结果会随着操作系统Lanuage而改变?

 read.csv(...,encoding=)

2 个答案:

答案 0 :(得分:1)

它可能与excel csv编码系统有关。如果您的Windows操作系统是Englihs。 excel可能无法正确打开cvs。一个解决方法是使用谷歌纯粹或Ubuntu安装表将其汇总到csv并尝试使用r打开它。

答案 1 :(得分:0)

我已经想出如何解决。它处理包含简体中文字符的大于800M的大文件。关键是您应该知道操作系统中的默认中文编码。

Ubuntu使用UTF-8作为默认的中文编码。所以你应该把它编码为UTF-8而不是GB18130或其他GB开始编码。

  • (1)下载Open Office(免费安装快速,有更高版本 文件大小比Ubuntu中的Cals)。

  • (2)检测您的CSV编码。只需使用Open office打开您的csv,然后选择一种显示您的中文字符的编码方法。

  • (3)根据您的要求将csv保存到正确的编码系统 操作系统。对于中文和Ubuntu,默认Windows是GBK UTF8。

这应解决您的文件大小问题和编码问题。你甚至不强迫编码。正常read.csv可行。