Question

我目前正在尝试编写一个迭代输入文件并检查网站数据的脚本。如果找到新数据，它会打印到它传递的终端，如果没有，则告诉我它失败了。对于删除的数据，反之亦然。它一直工作正常，直到我给出的输入文件包含“™”字符。然后当ruby到达那一行时，它会吐出一个错误：

PDAPWeb.rb：73：在`include？'中：不兼容的字符编码：UTF-8和IBM437 （编码:: CompatibilityError）

违规行是一个简单的检查，以查看页面上是否存在文本。

if browser.text.include? (program_name)

其中program_name变量是来自输入文件的已解析信息。在这种情况下，program_name包含前面提到的'TM'字符。

经过一些研究后，我发现在我的脚本开头添加＃encoding：utf-8行可能有所帮助，但到目前为止还没有证明有用。

我将它添加到我的program_name变量中以查看它是否有用（并且它允许我的脚本无错误地运行），但是现在它没有正确地找到它应该的TM字符。

program_name = record[2].gsub("\n", '').force_encoding("utf-8").encode("IBM437", replace: nil)

这似乎将TM字符转换为：Γäó

我想也许我有IBM437和utf-8部件颠倒了，所以我尝试了相反的

program_name = record[2].gsub("\n", '').force_encoding("IBM437").encode("utf-8", replace: nil)

现在在尝试运行脚本时收到此错误

PDAPWeb.rb：48：在`encode'：从UTF-8到IBM437的U + 2122（Encoding :: UndefinedConve rsionError）

我正在使用ruby 1.9.3p392（2013-02-22），我不确定是否应升级，因为这是我公司安装的标准版本。

我的编码是否不正确并导致它转换有错误的TM字符？

Answer 1

以下是它的样子。您的输入文件包含™字符，并且采用UTF-8编码。但是当你阅读它时，由于你没有指定编码，Ruby假定它是你系统的默认编码IBM437（你必须在Windows上）。

这与此基本相同：

>> input = "™"
=> "™"
>> input.encoding
=> #<Encoding:UTF-8>
>> input.force_encoding 'ibm437'
=> "\xE2\x84\xA2"

请注意force_encoding不会更改实际字符串，只会更改与之关联的标签。这与您的情况相同，只有您通过不同的路线到达此处（通过阅读文件）。

网页也有一个™符号，并且也编码为UTF-8，但在这种情况下，Ruby的编码是正确的（Watir可能使用页面中的标题）：

>> web_page = '™'
=> "™"
>> web_page.encoding
=> #<Encoding:UTF-8>

现在，当您尝试比较这两个字符串时，会出现兼容性错误，因为它们具有不同的编码：

>> web_page.include? input
Encoding::CompatibilityError: incompatible character encodings: UTF-8 and IBM437
    from (irb):11:in `include?'
    from (irb):11
    from /Users/matt/.rvm/rubies/ruby-2.2.1/bin/irb:11:in `<main>'

如果两个字符串中的任何一个只包含ASCII字符（即代码点少于128），那么这种比较就可以了。 UTF-8和IBM437都是ASCII的超集，如果它们都包含ASCII范围之外的字符，则它们只是不兼容。这就是您在输入文件具有™时才开始看到此行为的原因。

修复是告知Ruby输入文件的实际编码是什么。您可以使用已加载的字符串执行此操作：

>> input.force_encoding 'utf-8'
=> "™"

您也可以在reading the file时执行此操作，例如（有几种方法可以读取文件，它们都应该允许你明确指定编码）：

input = File.read("input_file.txt", :encoding => "utf-8")
# now input will be in the correct encoding

注意，在这两个字符串中都没有被更改，它仍然包含相同的字节，但Ruby现在知道它的正确编码。

现在比较应该可行：

>> web_page.include? input
=> true

不需要encode字符串。如果你这样做会发生什么。首先，如果您将编码更正为UTF-8，则编码为IBM437：

>> input.force_encoding("utf-8").encode("IBM437", replace: nil)
Encoding::UndefinedConversionError: U+2122 from UTF-8 to IBM437
    from (irb):16:in `encode'
    from (irb):16
    from /Users/matt/.rvm/rubies/ruby-2.2.1/bin/irb:11:in `<main>'

IBM437不包含™字符，因此您无法将包含该字符串的字符串编码为此编码而不会丢失数据。默认情况下，Ruby会在发生这种情况时引发异常。您可以使用:undef选项强制进行编码，但符号会丢失：

>> input.force_encoding("utf-8").encode("IBM437", :undef => :replace)
=> "?"

如果你走另一条路，首先使用force_encoding到IBM437，然后编码为UTF-8，你得到字符串Γäó：

>> input.force_encoding("IBM437").encode("utf-8", replace: nil)
=> "Γäó"

就Ruby而言，该字符串已经采用IBM437编码，因此force_encoding不执行任何操作。 ™的UTF-8表示是三个字节0xe2 0x84 0xa2，当解释为IBM437时，这些字节对应于此处看到的三个字符，然后转换为它们的UTF-8表示。

（这两个结果与您在问题中描述的内容相反，因此我的评论如上所述。我假设这只是一个复制粘贴错误。）

Ruby不兼容的字符编码

1 个答案: