蜘蛛没有进入下一页

时间:2016-08-24 20:10:52

标签: python python-3.x scrapy scrapy-spider

蜘蛛代码:

struct cred

问题:即使下一个page_page和url存在且正确,蜘蛛也会在第一页之后停止。

以下是停止前的最后一条调试消息:

struct task_struct

2 个答案:

答案 0 :(得分:1)

您需要检查以下内容。

  1. 检查您尝试抓取的网址是否不是Robots.txt,您可以通过查看http://blabla.org/robots.txt找到该网址。默认情况下,scrapy服从robots.txt。 建议您遵守robots.txt
  2. 默认情况下,scrapy的下载延迟为0.25,您可以将其增加2秒或更多,然后尝试。

答案 1 :(得分:0)

问题在于下一页的回复是对机器人的回复,并且不包含任何链接。