Question

我有3个URL文件，它们都具有相同的结构，因此所有列表都可以使用相同的spider。特别需要的是，所有三个都需要同时进行爬网。

是否可以在不创建多个蜘蛛的情况下同时抓取它们？

我相信这个答案

start_urls = ["http://example.com/category/top/page-%d/" % i for i in xrange(4)] + \
["http://example.com/superurl/top/page-%d/" % i for i in xrange(55)]

Scrap multiple urls with scrapy中的

只加入两个列表，但不能同时运行它们。

非常感谢

Answer 1

使用start_requests而不是start_urls ...这适用于你

class MySpider(scrapy.Spider):
name = 'myspider'

def start_requests(self):
    for page in range(1,20):
        yield self.make_requests_from_url('https://www.example.com/page-%s' %page)

是否可以同时抓取多个start_urls列表

1 个答案: