Question

如何使用Mechanize库查找网站上的所有链接？

我希望递归地解析内部链接，以便获取网站的所有链接。

Answer 1

你看过Anemone宝石了吗？它专门为抓取网站而创建。

您可以执行以下操作来抓取并打印网站的所有链接：

require 'anemone'

Anemone.crawl("http://www.example.com/") do |anemone|
  anemone.focus_crawl { |page| puts page.links }
end

有相当详细的文档可供选择，如果你想要整个方面，排除某些类型的链接，或排除类似的链接。

Answer 2

不是红宝石解决方案，但我发现this script简单有效。