Scrapy webcrawler bot在点击第二页后无法抓取页面。

时间:2016-01-26 17:44:44

标签: python python-2.7 scrapy scrapy-spider

好吧,这是我的问题,我正在研究一个非常基本的蜘蛛来浏览一堆页面并下载它们。我在Windows上的python 2.7中使用scrapy。我有下载位,我的问题是蜘蛛会下载第一页就好了,声称它有第二个链接,然后声称它完成了。它应该做的是扫描下一页,下载它,然后移动到下面的页面,直到它用完页面。

我不确定我到底做错了什么,除了正在发生的事情似乎是这样:机器人运行,它命中了起始URL中定义的页面,然后它通过,获取第二个链接页面(我已验证它获得的链接有效),保存第一页,然后......决定蜘蛛已经运行了它的路线。我无法弄清楚问题是什么。我得到DEBUG:过滤重复请求,这可能意味着它看到它必须作为副本前往的链接并拒绝对它做任何事情,但我不确定是否是这种情况。

RewriteRule ^OldDir/SubDir/(\d{4}/.+.(?:jpe?g|gif|png))$ /NewDir/$1 [R=301,L]

0 个答案:

没有答案