我已经读过Nokogiri / Mechanize(Ruby)例如不擅长遍历多个页面,但对于使用Ajax的网站可能会更好。
我想要抓取的网站是多页表单,带有一些ajax叠加层。速度很重要。这些网站都显示价格,所以我正在制作价格聚合器。
答案 0 :(得分:0)
我将带有Webkit的Capybara用于无头浏览器。
您还需要安装capybara gem和webkit gem。
https://github.com/thoughtbot/capybara-webkit
语法非常简单。
agent.visit 'some url'
agent.execute_script 'javascript here'
宝石也有页面管理,或者您可以通过执行javascript返回前往页面。
ag.execute_script("window.history.go(-1)")