我正在使用Anemone。我如何抓取子域?例如,如果我有网站www.abc.com
,我的抓取工具也应抓取support.abc.com
或blah.abc.com
。我使用的是Ruby 1.8.7和Rails 3。
答案 0 :(得分:4)
这是Github上的一个提交,可以解决你的问题。
https://github.com/runa/anemone/commit/91559bde052956cfc40ae62678ec2a61574cf928
根据链接更改您的海葵宝石文件。
答案 1 :(得分:-2)
根据Anemone docs,您可以将多个站点传递到crawl
命令:
Anemone.crawl("http://www.abc.com/", "http://support.abc.com/", "http://blah.abc.com/")
当然,您的下一个问题可能是ABC禁止您抓取他们的网站,但这是一个不同的问题。