应用错误收集

使用Hpricot＆amp ;;解析HTML Ruby - 获取最里面的html？

时间：2010-10-09 00:41:25

标签： html ruby parsing html-parsing hpricot

我正在寻找解析一些旧的html，它有很多可以用CSS完成的无关标签 - <b>，<font>等等。我正在使用Hpricot来解析它，但是我想得到最里面的“inner_html” - 如何用Hpricot做到这一点？例如，假设我使用Hpricot来抓取我遍历的所有<table>元素以获取行和单元格，但我想获取单元格内的数据，但是它们没有其他标记或类似{ {1}} - 有一个技巧可以让“1000”出来吗？

谢谢，
本

1 个答案:

答案 0 :(得分：1)

我不确定这是否完全符合您的要求，但您可能需要查看 inner_text 方法。它将返回与inner_html相同的内容，除了将删除所有HTML元素。

使用Hpricot（Ruby）解析HTML表
HTML解析 - 获取最内层的HTML标记
让Rails与Hpricot一起玩
使用Hpricot查找其父节点中节点的字符索引
使用Hpricot对异步响应进行刮擦
使用Hpricot删除元素的class属性
使用Hpricot＆amp ;;解析HTML Ruby - 获取最里面的html？
通过Hpricot获取div属性
使用Hpricot / Nokogiri解析/迭代html文件
Jsoup只选择最里面的div

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？