Question

我在列表中有一个> 100,000个网址（不同的域名），我想下载并保存在数据库中以便进一步处理和修改。

使用scrapy而不是python的多处理/多线程是否明智？如果是，我如何编写独立脚本来执行相同的操作？

另外，请随时提出您想到的其他令人敬畏的方法。

Answer 1

如果你非常了解要获取的URL（这里没有涉及抓取），那么Scrapy似乎与此无关。

最简单的想法是使用Requests。但是，查询序列中的每个URL并阻止等待答案都不会有效，因此您可以考虑GRequests异步发送批量请求。

Answer 2

如果您突然创建高负载，大多数网站所有者会尝试阻止您的抓取工具。

所以即使你有固定的链接列表，你需要控制超时，http答案代码，代理等scrapy或grab

Answer 3

Scrapy仍然是一种选择。

grequests

Answer 4

使用Scrapy的AFAIK，如果URL列表不能容纳在内存中是不可能的。

这可能与minet有关：

minet fetch url_column urls.csv > report.csv