标签: ruby-on-rails web-crawler resque anemone
我需要从给定域的所有页面获取所有网址, 我认为使用后台作业,将它们放在多个队列上是有意义的 试图使用cobweb,但宝石似乎很混乱 和anomone,如果有很多页面,海葵正在工作很长时间
require 'anemone' Anemone.crawl("http://www.example.com/") do |anemone| anemone.on_every_page do |page| puts page.links end end
你认为最适合我的是什么?
答案 0 :(得分:2)
您可以使用Nutch Crawler,Apache Nutch是一个高度可扩展且可扩展的开源Web爬网程序软件项目。
Nutch