应用错误收集

时间：2012-02-25 15:19:32

标签： html ruby parsing gem core

我和一些朋友一直在研究一套脚本，这些脚本可以让你更容易在uni上的机器上工作。其中一个工具目前使用Nokogiri，但是为了使这些工具能够在尽可能少的设置下运行在所有机器上，我们一直在尝试找到一个“本机”html解析器，而不是要求用户安装RVM和自定义宝石（由于大多数用户的磁盘空间限制。）

我们是否仅限于Nokogiri / Hpricot /？我们应该只考虑编写适合我们需求的自定义解析器吗？

干杯。

编辑：如果我在搜索中遗漏了帖子，请告诉我！所以。有时候太大了，无法有效地找到东西......

答案 0 :(得分：1)

ruby stdlib中没有html解析器 html解析器必须比xml解析器更容忍错误标记

你可以运行html虽然整洁（http://tidy.sourceforge.net）
整理html并生成有效的标记
现在可以通过rexml :-)读取它，它位于stdlib

中

rexml比nokogiri慢得多，最后一次检查是在2009年 Sam Ruby一直致力于提高rexml的速度，但

更好的方法是更好地部署查看http://gembundler.com/bundle_package.html并使用capistrano（或其他类似设置）来配置服务器