具有不同操作系统/语言的汉字编码

时间:2016-07-27 02:14:01

标签: r excel encoding

我无法将包含简体中文字符的csv文件读入我的r。我尝试过编码= utf-8,gb18130,gb2130等。中文字符可能无法显示。

  

我也试过将excel的编码改为utf8 csv,没有运气   我也   尝试使用中文窗口并将区域设置设置为中国。没有运气。

     

我换成中文窗口后。 excel可以打开我的csv(英文   Windows无法正确打开它。 r工作室可以打开它   View()但是R控制台控制台无法读取我的csv,即使我   重新安装r作为中文版。

     

我尝试过Ubuntu,Ubuntu根本无法读取我的csv。至少在Windows中,R studio可以很好地读取我的数据。

     

我试过谷歌表。但我的文件太大了,以至于Google表格会如此   甚至没有打开它

     

我厌倦了Ubuntu中的Cals并将其转换为GB *,因为GB是   在Windows R studio中正常工作。没运气。它需要超过10个   分钟将我的200Mb-750Mb数据转换为gb18013

1 个答案:

答案 0 :(得分:1)

Ubuntu使用UTF-8作为默认的中文编码。所以你应该把它编码为UTF-8而不是GB18130或其他GB开始编码。

  • (1)下载Open Office(免费安装快速,有更高版本 文件大小比Ubuntu中的Cals)。

  • (2)检测您的CSV编码。只需使用Open office打开您的csv,然后选择一种显示您的中文字符的编码方法。

  • (3)根据您的要求将csv保存为正确的编码 操作系统。中文默认Windows编码为GBK,Ubuntu为UTF8。

这应解决您的文件大小问题和编码问题。您甚至不必强制编码。正常read.csv可行。