使用Ruby on Rails从URL创建动态站点地图

时间:2014-01-21 21:00:30

标签: ruby-on-rails ruby web-scraping sitemap web-crawler

我目前正在开发一个应用程序,我从许多不同的站点获取信息。要获取网站上所需主题的深层链接,我依赖于提供的站点地图(例如“论坛”)。随着我的扩展,我遇到了一些自己没有提供站点地图的网站,所以我想知道是否有任何方法可以在顶级域名的Rails中生成它?

我正在使用Nokogiri和Mechanize来检索数据,因此如果有任何功能可以帮助解决该任务,那么集成将更容易。

1 个答案:

答案 0 :(得分:0)

这可以通过Spidr gem完成,如下所示:

url_map = Hash.new { |hash,key| hash[key] = [] }

Spidr.site('http://intranet.com/') do |spider|
  spider.every_link do |origin,dest|
    url_map[dest] << origin
  end
end