我需要使用相同的spider抓取两个网址:example.com/folder/和example.com/folder/fold2,并为每个网址检索两个不同的内容。
start_urls = ['http://www.example.com/folder','http://www.example.com/folder/fold2']
1)检查/ folder的内容 2)检查/ folder / fold2
的不同内容答案 0 :(得分:2)
您希望覆盖start_requests方法,而不是使用start_urls:
from scrapy import Spider, Request
class MySpider(Spider):
name = 'myspider'
def start_requests(self):
yield Request('http://www.example.com/folder',
callback=self.parse_folder)
yield Request('http://www.example.com/folder/fold2',
callback=self.parse_subfolder)
# ... define parse_folder and parse_subfolder here