在抓取网页时如何将html转义字符/实体提取为文本? (ruby& nokogiri)

时间:2010-01-23 04:29:33

标签: ruby nokogiri html-entities

在我的ruby + mechanize(nokogiri)脚本中,我使用了这段代码:

row.at_xpath('td[3]/div[1]/a/text()').to_s.strip

在帖子标题html看起来像的论坛上:

<a href="showthread.php?t=233891" >&lt;/body&gt; on Footer ?</a>

我从xpath收到此字符串 &lt;/body&gt; on Footer ?

我想在网络浏览器中看到我能看到的内容 </body> on Footer ?

如何为所有html转义字符/实体执行此操作?

1 个答案:

答案 0 :(得分:1)

请查看this post,了解unescape htmlentities

有一个名为htmlentities

的红宝石包