我想用ruby和机械化宝石来抓取一些网站

时间:2017-02-01 10:11:13

标签: ruby-on-rails ruby pagination web-scraping

我想抓一些包含分页的网站。

例如http://somesite.com/page/

我想在每个分页中抓每个帖子。

所以,在第1页中,大约有5个帖子。

如何抓取每个分页内的每个数据?直到最后一页?

我正在搜索和研究,我发现了两个类似的问题,但我仍然混淆它..

此处>>

first way

second way

任何想法如何组合它?

之前感谢

1 个答案:

答案 0 :(得分:0)

使用机械宝石?我强烈建议您使用Nokogiri。它非常简单易用。

你可以有一个获取页面的循环,当你找不到页面时就停止。

require 'open-uri'
require 'nokogiri'
pages_count = 1
loop do
    @html = Nokogiri::HTML(open("somepage.com/#{pages_count}"))
    ...
    pages_count = pages_count + 1
end