我有3个URL文件,它们都具有相同的结构,因此所有列表都可以使用相同的spider。 特别需要的是,所有三个都需要同时进行爬网。
是否可以在不创建多个蜘蛛的情况下同时抓取它们?
我相信这个答案
start_urls = ["http://example.com/category/top/page-%d/" % i for i in xrange(4)] + \
["http://example.com/superurl/top/page-%d/" % i for i in xrange(55)]
Scrap multiple urls with scrapy中的只加入两个列表,但不能同时运行它们。
非常感谢
答案 0 :(得分:1)
使用start_requests而不是start_urls ...这适用于你
class MySpider(scrapy.Spider):
name = 'myspider'
def start_requests(self):
for page in range(1,20):
yield self.make_requests_from_url('https://www.example.com/page-%s' %page)