Question

我需要使用相同的spider抓取两个网址：example.com/folder/和example.com/folder/fold2，并为每个网址检索两个不同的内容。

start_urls = ['http://www.example.com/folder'，'http://www.example.com/folder/fold2']

1）检查/ folder的内容 2）检查/ folder / fold2

的不同内容

Answer 1

您希望覆盖start_requests方法，而不是使用start_urls：

from scrapy import Spider, Request

class MySpider(Spider):
    name = 'myspider'

    def start_requests(self):
        yield Request('http://www.example.com/folder',
                      callback=self.parse_folder)
        yield Request('http://www.example.com/folder/fold2',
                      callback=self.parse_subfolder)

    # ... define parse_folder and parse_subfolder here

用scrapy分别抓取两个不同的页面

1 个答案: