我刚刚进行了scrapy设置和运行,效果很好,但我有两个(noob)问题。我应该先说我对scrapy和蜘蛛网站来说是全新的。
您可以限制抓取的链接数量吗?我有一个不使用分页的网站,只是在主页上列出了很多链接(我抓了)。当我真正需要抓取前10个左右时,我感觉不好抓取所有这些链接。
如何一次运行多个蜘蛛?现在我正在使用命令scrapy crawl example.com
,但我也有example2.com和example3.com的蜘蛛。我想用一个命令运行我的所有蜘蛛。这可能吗?
答案 0 :(得分:2)
表示#1:不要使用rules属性来提取链接并跟随,在parse函数中编写规则并生成或返回Requests对象。
#p>#2:尝试报废答案 1 :(得分:0)
归功于Shane,这里https://groups.google.com/forum/?fromgroups#!topic/scrapy-users/EyG_jcyLYmU
使用CloseSpider应该允许您指定此类限制。
http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider
由于我不需要它,所以还没有尝试过。您可能还必须在设置文件中启用扩展程序(请参阅同一页面的顶部)。