python - 单次运行无法刮掉数百万个相同的域链接

一次无法提取数百万个链接。它提取链接，但我必须多次运行相同的代码。我有一个设置为唯一键的字段“ url”。

更改设置并发请求= 10 还要在屈服请求之前将睡眠时间放1秒。但是当我运行代码时，它无法一次提取所有唯一的网址。

link = 'https//xyz.com/'
d_list = ['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z']
for dl in d_list:
    time.sleep(1)
    yield scrapy.Request(url=link+dl,callback=self.parse_link, meta={'Page':Page})

单次运行无法刮掉数百万个相同的域链接

0 个答案: