应用错误收集

如何仅使用Anemone抓取子文件夹

时间：2012-08-08 16:12:53

标签： ruby web-crawler anemone

我们可以使用海葵抓取一个漏洞网站（例如：https://stackoverflow.com/），但如果我只想关注某个文件夹（例如：https://stackoverflow.com/ questions）该怎么办。我怎样才能做到这一点？也许使用“focus_crawl”方法？

1 个答案:

答案 0 :(得分：2)

检查keep_if方法可能有帮助

http://danneu.com/posts/8-scraping-a-blog-with-anemone-ruby-web-crawler-and-mongodb#toc_1

尝试并按照您要抓取的模式传递

还有一个要点https://gist.github.com/1149906。

注意：我没有测试过，但你肯定可以试试。