我需要从html文档中读取一些测试数据。问题是有一些非英文字符显示为HTML代码(例如Ø - Ø
)。如何将其更改为单个字符?稍后我需要将这些字符与用户在网络表单中输入的内容进行比较。
我正在尝试在Ruby 1.9.2中执行此操作。
提前致谢
答案 0 :(得分:1)
这个问题很多次。但我找不到它。所以,我记得:
require 'CGI'
some_string = 'Ø&>'
p CGI.unescapeHTML(some_string).gsub(/&#(\d+);/){[$1.to_i].pack 'U'}
=> "\u00D8&>"
\u00D8
是你的象征。 &>
仅用于使用CGI::unescapeHTML
。