使用Hpricot&amp ;;解析HTML Ruby - 获取最里面的html?

时间:2010-10-09 00:41:25

标签: html ruby parsing html-parsing hpricot

我正在寻找解析一些旧的html,它有很多可以用CSS完成的无关标签 - <b><font>等等。我正在使用Hpricot来解析它,但是我想得到最里面的“inner_html” - 如何用Hpricot做到这一点?例如,假设我使用Hpricot来抓取我遍历的所有<table>元素以获取行和单元格,但我想获取单元格内的数据,但是它们没有其他标记或类似{ {1}} - 有一个技巧可以让“1000”出来吗?

谢谢,

1 个答案:

答案 0 :(得分:1)

我不确定这是否完全符合您的要求,但您可能需要查看 inner_text 方法。它将返回与inner_html相同的内容,除了将删除所有HTML元素。