如何在Scrapy中开始使用相同格式的多个URL进行爬网

时间:2017-10-18 17:30:03

标签: python scrapy scrapy-spider

我的Scrapy蜘蛛需要从以下格式的网址开始:

https://catalog.loc.gov/vwebv/search?searchArg={$variable}&searchCode=GKEY%5E*&searchType=1&limitTo=none&fromYear=&toYear=&limitTo=LOCA%3Dall&limitTo=PLAC%3Dall&limitTo=TYPE%3Dall&limitTo=LANG%3Dall&recCount=1000'

其中$ variable是一个可以输入尽可能多的值的参数(甚至可能包含1000个可能的值)。

我该如何实现?

1 个答案:

答案 0 :(得分:1)

您可以将start_requests方法覆盖为:

def start_requests(self):
    base_url = 'https://catalog.loc.gov/vwebv/search?...'
    variables = [...]
    for variable in variables:
        url = base_url.format(variable)
        yield Request(url)