Question

我需要从给定域的所有页面获取所有网址，
我认为使用后台作业，将它们放在多个队列上是有意义的试图使用cobweb，但宝石似乎很混乱和anomone，如果有很多页面，海葵正在工作很长时间

require 'anemone'

Anemone.crawl("http://www.example.com/") do |anemone|
  anemone.on_every_page do |page|
      puts page.links
  end
end

你认为最适合我的是什么？

Answer 1

您可以使用Nutch Crawler，Apache Nutch是一个高度可扩展且可扩展的开源Web爬网程序软件项目。