Scrapy Django限制链接被抓取

时间:2010-11-24 19:15:04

标签: python django scrapy

我刚刚进行了scrapy设置和运行,效果很好,但我有两个(noob)问题。我应该先说我对scrapy和蜘蛛网站来说是全新的。

  1. 您可以限制抓取的链接数量吗?我有一个不使用分页的网站,只是在主页上列出了很多链接(我抓了)。当我真正需要抓取前10个左右时,我感觉不好抓取所有这些链接。

  2. 如何一次运行多个蜘蛛?现在我正在使用命令scrapy crawl example.com,但我也有example2.com和example3.com的蜘蛛。我想用一个命令运行我的所有蜘蛛。这可能吗?

2 个答案:

答案 0 :(得分:2)

表示#1:不要使用rules属性来提取链接并跟随,在parse函数中编写规则并生成或返回Requests对象。

#p>#2:尝试报废

答案 1 :(得分:0)

归功于Shane,这里https://groups.google.com/forum/?fromgroups#!topic/scrapy-users/EyG_jcyLYmU

使用CloseSpider应该允许您指定此类限制。

http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider

由于我不需要它,所以还没有尝试过。您可能还必须在设置文件中启用扩展程序(请参阅同一页面的顶部)。