与JRuby兼容的HTML解析器?

时间:2010-08-22 22:22:44

标签: jruby html-parsing

我很难找到适用于JRuby的HTML解析器。

我喜欢使用Nokogiri进行HTML解析,但是Nokogiri需要使用bxml2.dll,我在我的机器上没有这个,并且我不确定我是否可以确保它在所有用户上都可用'机器。

我试图使用另一个喜欢的Scrubyt,但这依赖于Mechanize,这也需要Nokogiri。

您建议使用哪种Ruby HTML解析器与JRuby一起使用?

2 个答案:

答案 0 :(得分:1)

Nokogiri的纯java版本依赖于libxml2或任何二进制文件。请参阅http://wiki.github.com/tenderlove/nokogiri/pure-java-nokogiri-for-jruby

Hpricot是一个流行的HTML解析库,它也有一个纯Java端口。功能类似,实际上Hpricot是使用CSS选择器进行HTML解析的推广器。

答案 1 :(得分:0)

为什么不使用nokogiri的纯java版本?

http://github.com/tenderlove/nokogiri/tree/java