单次运行无法刮掉数百万个相同的域链接

时间:2019-05-19 05:10:21

标签: python python-3.x scrapy

一次无法提取数百万个链接。 它提取链接,但我必须多次运行相同的代码。 我有一个设置为唯一键的字段“ url”。

更改设置并发请求= 10 还要在屈服请求之前将睡眠时间放1秒。 但是当我运行代码时,它无法一次提取所有唯一的网址。

link = 'https//xyz.com/'
d_list = ['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z']
for dl in d_list:
    time.sleep(1)
    yield scrapy.Request(url=link+dl,callback=self.parse_link, meta={'Page':Page})

0 个答案:

没有答案