用Anemone抓取子域名

时间:2012-02-15 07:16:41

标签: ruby web-crawler anemone

我正在使用Anemone。我如何抓取子域?例如,如果我有网站www.abc.com,我的抓取工具也应抓取support.abc.comblah.abc.com。我使用的是Ruby 1.8.7和Rails 3。

2 个答案:

答案 0 :(得分:4)

这是Github上的一个提交,可以解决你的问题。

https://github.com/runa/anemone/commit/91559bde052956cfc40ae62678ec2a61574cf928

根据链接更改您的海葵宝石文件。

答案 1 :(得分:-2)

根据Anemone docs,您可以将多个站点传递到crawl命令:

Anemone.crawl("http://www.abc.com/", "http://support.abc.com/", "http://blah.abc.com/")

当然,您的下一个问题可能是ABC禁止您抓取他们的网站,但这是一个不同的问题。