我们可以使用海葵抓取一个漏洞网站(例如:https://stackoverflow.com/
),但如果我只想关注某个文件夹(例如:https://stackoverflow.com/ questions
)该怎么办。我怎样才能做到这一点 ?也许使用“focus_crawl”方法?
答案 0 :(得分:2)
检查keep_if方法可能有帮助
http://danneu.com/posts/8-scraping-a-blog-with-anemone-ruby-web-crawler-and-mongodb#toc_1
尝试并按照您要抓取的模式传递
还有一个要点https://gist.github.com/1149906。
注意:我没有测试过,但你肯定可以试试。