我很难找到适用于JRuby的HTML解析器。
我喜欢使用Nokogiri进行HTML解析,但是Nokogiri需要使用bxml2.dll,我在我的机器上没有这个,并且我不确定我是否可以确保它在所有用户上都可用'机器。
我试图使用另一个喜欢的Scrubyt,但这依赖于Mechanize,这也需要Nokogiri。
您建议使用哪种Ruby HTML解析器与JRuby一起使用?
答案 0 :(得分:1)
Nokogiri的纯java版本不依赖于libxml2或任何二进制文件。请参阅http://wiki.github.com/tenderlove/nokogiri/pure-java-nokogiri-for-jruby。
Hpricot是一个流行的HTML解析库,它也有一个纯Java端口。功能类似,实际上Hpricot是使用CSS选择器进行HTML解析的推广器。
答案 1 :(得分:0)
为什么不使用nokogiri的纯java版本?