Question

当我尝试使用Mechanize和Ruby 2.0提交textarea时，我总是得到一个

Encoding::UndefinedConversionError: U+0151 from UTF-8 to ISO-8859-1

然后我尝试用Iconv转换文本，我得到了类似的结果：

Iconv.iconv("LATIN1", "UTF-8", text)

我收到此错误消息：

Iconv::IllegalSequence: "őzködik, melyet "...

由于文字包含东欧字符。我该怎么做才能避免这种不便或如何在不同的编码之间正确转换？

Answer 1

我找到了一个优雅的解决方案：

replacements = [["À", "&#192;"], ["Á", "&#193;"], ["Â", "&#194;"], ["Ã", "&#195;"], ["Ä", "&#196;"], ["Å", "&#197;"], ["Æ", "&#198;"], ["Ç", "&#199;"], ["È", "&#200;"], ["É", "&#201;"], ["Ê", "&#202;"], ["Ë", "&#203;"], ["Ì", "&#204;"], ["Í", "&#205;"], ["Î", "&#206;"], ["Ï", "&#207;"], ["Ð", "&#208;"], ["Ñ", "&#209;"], ["Ò", "&#210;"], ["Ó", "&#211;"], ["Ô", "&#212;"], ["Õ", "&#213;"], ["Ö", "&#214;"], ["Ø", "&#216;"], ["Ù", "&#217;"], ["Ú", "&#218;"], ["Û", "&#219;"], ["Ü", "&#220;"], ["Ý", "&#221;"], ["Þ", "&#222;"], ["ß", "&#223;"], ["à", "&#224;"], ["á", "&#225;"], ["â", "&#226;"], ["ã", "&#227;"], ["ä", "&#228;"], ["å", "&#229;"], ["æ", "&#230;"], ["ç", "&#231;"], ["è", "&#232;"], ["é", "&#233;"], ["ê", "&#234;"], ["ë", "&#235;"], ["ì", "&#236;"], ["í", "&#237;"], ["î", "&#238;"], ["ï", "&#239;"], ["ð", "&#240;"], ["ñ", "&#241;"], ["ò", "&#242;"], ["ó", "&#243;"], ["ô", "&#244;"], ["õ", "&#245;"], ["ö", "&#246;"], ["ø", "&#248;"], ["ù", "&#249;"], ["ú", "&#250;"], ["û", "&#251;"], ["ü", "&#252;"], ["ý", "&#253;"], ["þ", "&#254;"], ["ÿ", "&#255;"]]

def replace(str,replacements)
 replacements.each {|replacement| str.gsub!(replacement[0], replacement[1])}
 return str
end

my_string=replace(my_string,replacements)

在使用Mechanize进行抓取时，我总是在Ruby 2.0中获得UndefinedConversionError

1 个答案: