应用错误收集

时间：2013-11-23 22:38:09

标签： javascript ruby-on-rails ruby web-crawler mechanize

我想抓取/抓取一些严重依赖Javascript的网站，我的Mechanize代理（我通常使用的代理）无法处理，因为它无法呈现html。一个很好的例子是this site。

有没有办法从Ruby on Rails应用程序中获取该站点的渲染html输出？

我正在使用Ruby 2.0.0和Rails 4.0.1

答案 0 :(得分：2)

您可以使用Capybara来执行此操作。这是一个资源：

或者在Google上搜索＆＃34; Capybara＆＃34;刮刀。

有一点需要注意，表现会很糟糕。我已经建立了这样一个刮刀，这几乎是不值得的。

答案 1 :(得分：0)

您可以使用 I-Macros 进行网页抓取。您提到的网站使用框架。所以每个帧可以被视为单独的页面并被刮除。作为替代方案，您可以使用简单的Java程序，使用apache HttpClient / HtmlUnit API。