Question

我有一个包含许多网址的文件。我愿意从这些URL中提取链接，然后提取不同页面的标题和元素。

我想知道可以将多少个URL提供给Scrapy搜寻器，以便获得适当的结果。我不知道Scrapy是否会对URL扫描有任何限制并从URL中提取链接。如何随机化提取的链接？

le = LinkExtractor()
for link in le.extract_links(response):
    yield scrapy.Request(link.url, callback=self.parse_inof)

参见上面的代码。我用它来从URL中提取链接。我怎么能这样做？

Answer 1

CONCURRENT_ITEMS
Default: 100

在项目处理器（也称为项目管道）中并行处理的最大并发项数（每个响应）。

CONCURRENT_REQUESTS
Default: 16

Scrapy下载程序将执行的最大并发（即同时）请求数

编辑; Altso，也许可以使用，

import random

list = [20, 16, 10, 5];
random.shuffle(list)
print "Reshuffled list : ",  list

random.shuffle(list)
print "Reshuffled list : ",  list

You might need to give the list urls a numeric id first.

使用Scrapy可以处理多少个URL？

1 个答案: