用Ruby抓取一个Javascript繁重的站点

时间:2013-11-23 22:38:09

标签: javascript ruby-on-rails ruby web-crawler mechanize

我想抓取/抓取一些严重依赖Javascript的网站,我的Mechanize代理(我通常使用的代理)无法处理,因为它无法呈现html。一个很好的例子是this site

有没有办法从Ruby on Rails应用程序中获取该站点的渲染html输出?

我正在使用Ruby 2.0.0和Rails 4.0.1

2 个答案:

答案 0 :(得分:2)

您可以使用Capybara来执行此操作。这是一个资源:

或者在Google上搜索" Capybara"刮刀。

有一点需要注意,表现会很糟糕。我已经建立了这样一个刮刀,这几乎是不值得的。

答案 1 :(得分:0)

您可以使用 I-Macros 进行网页抓取。您提到的网站使用框架。所以每个帧可以被视为单独的页面并被刮除。作为替代方案,您可以使用简单的Java程序,使用apache HttpClient / HtmlUnit API。