是否可以同时抓取多个start_urls列表

时间:2015-09-07 09:54:00

标签: python scrapy

我有3个URL文件,它们都具有相同的结构,因此所有列表都可以使用相同的spider。 特别需要的是,所有三个都需要同时进行爬网。

是否可以在不创建多个蜘蛛的情况下同时抓取它们?

我相信这个答案

start_urls = ["http://example.com/category/top/page-%d/" % i for i in xrange(4)] + \
["http://example.com/superurl/top/page-%d/" % i for i in xrange(55)]
Scrap multiple urls with scrapy中的

只加入两个列表,但不能同时运行它们。

非常感谢

1 个答案:

答案 0 :(得分:1)

使用start_requests而不是start_urls ...这适用于你

class MySpider(scrapy.Spider):
name = 'myspider'

def start_requests(self):
    for page in range(1,20):
        yield self.make_requests_from_url('https://www.example.com/page-%s' %page)