Question

首先，这不是此SO question的副本。我有Shift-JIS编码的csv文件这是我解析文件的脚本

require 'csv'
str1 = '社員番号'
str2 = 'メールアドレス'
str1.force_encoding("Shift_JIS").encode!
str2.force_encoding("Shift_JIS").encode!
file=File.open("SyainInfo.csv", "r:Shift_JIS")
csv = CSV.read(file, headers: true)
p csv[str1]
p csv [str2]

但即使在指定了enconding之后，我也会得到invalid byte sequence in UTF-8 (ArgumentError)。有什么想法吗？我的红宝石是2.3.0

Answer 1

首先，您的编码看起来不正确：

'社員番号'.force_encoding("Shift_JIS").encode!
#=> "\x{E7A4}\xBE\x{E593}\xA1\x{E795}\xAA\x{E58F}\xB7"

force_encoding从str1获取字节并将它们解释为Shift JIS，而您可能希望将字符串转换为Shift JIS：

'社員番号'.encode('Shift_JIS')
#=> "\x{8ED0}\x{88F5}\x{94D4}\x{8D86}"

接下来，您可以将文件名传递给CSV.read，而不是：

file = File.open(filename)
CSV.read(file)

你可以写：

CSV.read(filename)

也就是说，您可以使用Shift JIS编码的字符串：

require 'csv'
str1 = '社員番号'.encode("Shift_JIS")
str2 = 'メールアドレス'.encode("Shift_JIS")
csv = CSV.read('SyainInfo.csv', encoding: 'Shift_JIS', headers: true)
csv[str1]
csv[str2]

或者 - 这就是我要做的 - 你可以通过指定第二个编码来使用UTF-8字符串：

require 'csv'
str1 = '社員番号'
str2 = 'メールアドレス'
csv = CSV.read('SyainInfo.csv', encoding: 'Shift_JIS:UTF-8', headers: true)
csv[str1]
csv[str2]

encoding: 'Shift_JIS:UTF-8'指示CSV读取Shift JIS数据并将其转码为UTF-8。这相当于将'r:Shift_JIS:UTF-8'传递给File.open

Ruby`CSV.read`错误UTF-8中的无效字节序列（ArgumentError）

1 个答案: