标签: screen-scraping nokogiri
是否有方法可以使用Nokogiri进行抓取链接?我知道我可以提取href然后打开它,但我想我看到了一种使用hpricot来做这个的方法,并且想知道在Nokogiri中是否有类似的东西。
答案 0 :(得分:5)
这是使用Ruby,Nokigiri,Hpricot和Firebug的优秀screen scraping guide。
我个人非常喜欢使用Mechanize,这是一个无头浏览器,用于屏幕抓取。您可以使用mechanize来导航链接并填写表单,它将处理所有棘手的东西,如cookie。