使用ruby核心库解析HTML? (即,不需要宝石)

时间:2012-02-25 15:19:32

标签: html ruby parsing gem core

我和一些朋友一直在研究一套脚本,这些脚本可以让你更容易在uni上的机器上工作。其中一个工具目前使用Nokogiri,但是为了使这些工具能够在尽可能少的设置下运行在所有机器上,我们一直在尝试找到一个“本机”html解析器,而不是要求用户安装RVM和自定义宝石(由于大多数用户的磁盘空间限制。)

我们是否仅限于Nokogiri / Hpricot /?我们应该只考虑编写适合我们需求的自定义解析器吗?

干杯。

编辑:如果我在搜索中遗漏了帖子,请告诉我!所以。有时候太大了,无法有效地找到东西......

1 个答案:

答案 0 :(得分:1)

ruby​​ stdlib中没有html解析器 html解析器必须比xml解析器更容忍错误标记

你可以运行html虽然整洁(http://tidy.sourceforge.net)
整理html并生成有效的标记
现在可以通过rexml :-)读取它,它位于stdlib

rexml比nokogiri慢得多,最后一次检查是在2009年 Sam Ruby一直致力于提高rexml的速度,但

更好的方法是更好地部署 查看http://gembundler.com/bundle_package.html并使用capistrano(或其他类似设置)来配置服务器