我正在尝试抓取多个网址,并为每个网址抓取几个页面,并为每个网页抓取几个项目。页面更改通过FormRequest执行。 我的蜘蛛看起来像这样:
def parse_url(self, response):
for url in url_list:
yield scrapy.Request(url,callback=self.parse_page)
def parse_page(self, response):
for page in page_list:
yield scrapy.FormRequest(url,formdata=data, callback=self.parse_item)
def parse_item(self, response):
for item in item_list:
yield item
我期待Scrapy按以下顺序抓取:
但Scrapy卡在列表中的最后一个网址上,并不断更改该网址的页面。
非常感谢任何帮助。 谢谢