我想抓取/抓取一些严重依赖Javascript的网站,我的Mechanize代理(我通常使用的代理)无法处理,因为它无法呈现html。一个很好的例子是this site。
有没有办法从Ruby on Rails应用程序中获取该站点的渲染html输出?
我正在使用Ruby 2.0.0和Rails 4.0.1
答案 0 :(得分:2)
您可以使用Capybara来执行此操作。这是一个资源:
或者在Google上搜索" Capybara"刮刀。
有一点需要注意,表现会很糟糕。我已经建立了这样一个刮刀,这几乎是不值得的。
答案 1 :(得分:0)
您可以使用 I-Macros 进行网页抓取。您提到的网站使用框架。所以每个帧可以被视为单独的页面并被刮除。作为替代方案,您可以使用简单的Java程序,使用apache HttpClient / HtmlUnit API。