我正在使用HTMLEntities来解码HTML-Strings。今天我看到了& nbsp;被解码为194而不是160。
jruby-1.6.2 :002 > HTMLEntities.new.decode( " " )[0]
=> 194
194是正确的,还是我做错了(可能是Ruby中使用UTF-8-Strings的东西)?
(JRuby = 1.6.2,Rails = 2.3.11,HTMLEntities = 4.3.0)
答案 0 :(得分:3)
您所看到的是两字节UTF-8序列的第一个字节。尝试解压缩它以查看预期的Unicode代码点:
HTMLEntities.new.decode( " " ).unpack('U*')[0]