如何用scrapy下载文件?

时间:2016-07-11 09:00:54

标签: scrapy

我想知道你会使用什么技术,例如一个页面包含6个视频的链接,每个300Mb,你想要全部下载它们。我应该写我的自定义下载器吗?

我习惯使用MediaPipeline,但它使用的框架调度程序存在以下问题:

  1. 您永远不知道当前正在下载哪个文件
  2. 您无法了解下载进度/状态,直至失败
  3. 奇怪的超时行为: a)看起来超时应用于整个请求下载操作,而不仅仅是暂停下载。因此,如果超时为5分钟,我将永远无法下载需要6分钟下载的文件。 b)如果你发出5个并发的长请求,其中一个请求时间太长,你将得到所有这些请求(尚未完成)超时。您必须在设置中将并发请求数限制为1(这将影响整个蜘蛛)。

1 个答案:

答案 0 :(得分:0)

您可以在检索视频链接后使用Youtube downloader

如果视频尚未完成下载,Youtube下载器会尝试继续播放。你也可以强迫它继续。如果单次下载需要很长时间,请在它周围写一个包装器以实现并发。

免责声明:我并非与该软件包的维护人员有任何关系。