使用Mechanize和Ruby刮擦动态页面

时间:2015-11-24 18:33:13

标签: ruby screen-scraping mechanize

我正在尝试通过mechanize加载以下页面:

http://www.amazon.com/dp/B014R6MVH2

产品描述div(div id =“productDescription”)似乎是一个javascript驱动的部分,因此无法进行机械化。

这有什么解决方案吗?也许我可以使用它来执行javascript并查看该部分?

另一种选择可能是使用无头浏览器。我尝试过硒,但它比机械化要快得多。

1 个答案:

答案 0 :(得分:0)

它对我有用:

agent = Mechanize.new
page = agent.get 'http://www.amazon.com/dp/B014R6MVH2'
page.at('#productDescription .content').text
#=> Description  This item is a simple and useful wedding banner....