用scrapy分别抓取两个不同的页面

时间:2014-10-18 10:45:50

标签: python scrapy

我需要使用相同的spider抓取两个网址:example.com/folder/和example.com/folder/fold2,并为每个网址检索两个不同的内容。

start_urls = ['http://www.example.com/folder','http://www.example.com/folder/fold2']

1)检查/ folder的内容 2)检查/ folder / fold2

的不同内容

1 个答案:

答案 0 :(得分:2)

您希望覆盖start_requests方法,而不是使用start_urls:

from scrapy import Spider, Request

class MySpider(Spider):
    name = 'myspider'

    def start_requests(self):
        yield Request('http://www.example.com/folder',
                      callback=self.parse_folder)
        yield Request('http://www.example.com/folder/fold2',
                      callback=self.parse_subfolder)

    # ... define parse_folder and parse_subfolder here