阅读时Ruby CSV UTF8编码错误

时间:2013-04-04 21:49:51

标签: ruby csv

这就是我在做的事情:

csv = CSV.open(file_name, "r")

我用它进行测试:

line = csv.shift
while not line.nil?
  puts line
  line = csv.shift
end

我遇到了这个:

ArgumentError: invalid byte sequence in UTF-8

我看了answer here,这就是我尝试的内容

csv = CSV.open(file_name, "r", encoding: "windows-1251:utf-8")

我遇到了以下错误:

Encoding::UndefinedConversionError: "\x98" to UTF-8 in conversion from Windows-1251 to UTF-8

然后我遇到了一个Ruby gem - charlock_holmes。我想我会尝试使用它来查找源编码。

CharlockHolmes::EncodingDetector.detect(File.read(file_name))
=> {:type=>:text, :encoding=>"windows-1252", :confidence=>37, :language=>"fr"}

所以我这样做了:

csv = CSV.open(file_name, "r", encoding: "windows-1252:utf-8")

仍然有这个:

Encoding::UndefinedConversionError: "\x8F" to UTF-8 in conversion from Windows-1252 to UTF-8

1 个答案:

答案 0 :(得分:4)

您似乎在检测文件的有效编码时遇到问题。 CharlockHolmes 为您提供:confidence=>37的有用提示,这意味着检测到的编码可能不正确。

基于错误消息和来自https://github.com/MacRuby/MacRuby/blob/master/test-mri/test/ruby/test_transcode.rbtest_transcode.rb我发现了通过这两个错误消息的编码。在String#encode的帮助下,它很容易测试:

"\x8F\x98".encode("UTF-8","cp1256") # => "ڈک"

您的问题看起来与文件严格相关,而不是红宝石。

如果我们不确定使用哪种编码并且可以同意删除某些字符,我们可以使用:invalid:undef参数String#encode,在这种情况下:

"\x8F\x98".encode("UTF-8", "CP1250",:invalid => :replace, :undef => :replace, :replace => "?") # => "Ź?"

其他方法是使用Iconv *//IGNORE选项进行目标编码:

Iconv.iconv("UTF-8//IGNORE","CP1250", "\x8F\x98")

作为 CharlockHolmes 的源编码建议应该非常好。

PS。 String.encode在ruby 1.9中引入。使用ruby 1.8,您可以使用Iconv