Question

我想抓一些包含分页的网站。

例如http://somesite.com/page/

我想在每个分页中抓每个帖子。

所以，在第1页中，大约有5个帖子。

如何抓取每个分页内的每个数据？直到最后一页？

我正在搜索和研究，我发现了两个类似的问题，但我仍然混淆它..

此处＆gt;＆gt;

first way

second way

任何想法如何组合它？

之前感谢

Answer 1

你使用机械宝石？我强烈建议您使用Nokogiri。它非常简单易用。

你可以有一个获取页面的循环，当你找不到页面时就停止。

require 'open-uri'
require 'nokogiri'
pages_count = 1
loop do
    @html = Nokogiri::HTML(open("somepage.com/#{pages_count}"))
    ...
    pages_count = pages_count + 1
end

我想用ruby和机械化宝石来抓取一些网站

1 个答案: