我的Scrapy蜘蛛需要从以下格式的网址开始:
https://catalog.loc.gov/vwebv/search?searchArg={$variable}&searchCode=GKEY%5E*&searchType=1&limitTo=none&fromYear=&toYear=&limitTo=LOCA%3Dall&limitTo=PLAC%3Dall&limitTo=TYPE%3Dall&limitTo=LANG%3Dall&recCount=1000'
其中$ variable是一个可以输入尽可能多的值的参数(甚至可能包含1000个可能的值)。
我该如何实现?
答案 0 :(得分:1)
您可以将start_requests
方法覆盖为:
def start_requests(self):
base_url = 'https://catalog.loc.gov/vwebv/search?...'
variables = [...]
for variable in variables:
url = base_url.format(variable)
yield Request(url)