多种形式需要最好的刮刀/履带式(Nokogiri,Scrapy,其他?)

时间:2015-03-30 18:27:21

标签: web-scraping scrapy mechanize mechanize-python mechanize-ruby

我已经读过Nokogiri / Mechanize(Ruby)例如不擅长遍历多个页面,但对于使用Ajax的网站可能会更好。

我想要抓取的网站是多页表单,带有一些ajax叠加层。速度很重要。这些网站都显示价格,所以我正在制作价格聚合器。

1 个答案:

答案 0 :(得分:0)

我将带有Webkit的Capybara用于无头浏览器。

您还需要安装capybara gem和webkit gem。

https://github.com/thoughtbot/capybara-webkit

语法非常简单。

agent.visit 'some url'
agent.execute_script 'javascript here'

宝石也有页面管理,或者您可以通过执行javascript返回前往页面。

ag.execute_script("window.history.go(-1)")