我想抓一些包含分页的网站。
我想在每个分页中抓每个帖子。
所以,在第1页中,大约有5个帖子。
如何抓取每个分页内的每个数据?直到最后一页?
我正在搜索和研究,我发现了两个类似的问题,但我仍然混淆它..此处>>
任何想法如何组合它?
之前感谢
答案 0 :(得分:0)
你 使用机械宝石?我强烈建议您使用Nokogiri。它非常简单易用。
你可以有一个获取页面的循环,当你找不到页面时就停止。
require 'open-uri'
require 'nokogiri'
pages_count = 1
loop do
@html = Nokogiri::HTML(open("somepage.com/#{pages_count}"))
...
pages_count = pages_count + 1
end