rails中的web crawler,如何抓取网站的所有页面

时间:2013-10-11 05:32:17

标签: ruby-on-rails web-crawler resque anemone

我需要从给定域的所有页面获取所有网址,
我认为使用后台作业,将它们放在多个队列上是有意义的 试图使用cobweb,但宝石似乎很混乱 和anomone,如果有很多页面,海葵正在工作很长时间

require 'anemone'

Anemone.crawl("http://www.example.com/") do |anemone|
  anemone.on_every_page do |page|
      puts page.links
  end
end

你认为最适合我的是什么?

1 个答案:

答案 0 :(得分:2)

您可以使用Nutch Crawler,Apache Nutch是一个高度可扩展且可扩展的开源Web爬网程序软件项目。