如何使用Mechanize
库查找网站上的所有链接?
我希望递归地解析内部链接,以便获取网站的所有链接。
答案 0 :(得分:5)
你看过Anemone宝石了吗?它专门为抓取网站而创建。
您可以执行以下操作来抓取并打印网站的所有链接:
require 'anemone'
Anemone.crawl("http://www.example.com/") do |anemone|
anemone.focus_crawl { |page| puts page.links }
end
有相当详细的文档可供选择,如果你想要整个方面,排除某些类型的链接,或排除类似的链接。
答案 1 :(得分:0)
不是红宝石解决方案,但我发现this script简单有效。