我正在寻找解析一些旧的html,它有很多可以用CSS完成的无关标签 - <b>
,<font>
等等。我正在使用Hpricot来解析它,但是我想得到最里面的“inner_html” - 如何用Hpricot做到这一点?例如,假设我使用Hpricot来抓取我遍历的所有<table>
元素以获取行和单元格,但我想获取单元格内的数据,但是它们没有其他标记或类似{ {1}} - 有一个技巧可以让“1000”出来吗?
谢谢,
本
答案 0 :(得分:1)
我不确定这是否完全符合您的要求,但您可能需要查看 inner_text 方法。它将返回与inner_html相同的内容,除了将删除所有HTML元素。