可以完全下载pdf

时间:2019-07-11 05:42:11

标签: python pdf stream scrapy

我想从由抓蜘蛛抓取的pdf Web链接中下载许多pdf文件,但是当我在文件管道中使用scrapy.Request(pdf_url)来爬行pdf web时,最终它下载了不完整的pdf文件。除前几个文件(已完成)外,所有pdf文件均为1 KB。我不得不使用requests.get(pdf_url, stream=True)来完全下载所有pdf文件,但这太慢了。我想知道scrapy文件管道是否具有类似的方法吗?

1 个答案:

答案 0 :(得分:0)

不确定scrapy是否可以完成这项工作。您可以使用wget库进行下载。

import wget
pdf_url = "url_of_the_pdf.pdf"
wget.download(pdf_url)