Question

我想从由抓蜘蛛抓取的pdf Web链接中下载许多pdf文件，但是当我在文件管道中使用scrapy.Request(pdf_url)来爬行pdf web时，最终它下载了不完整的pdf文件。除前几个文件（已完成）外，所有pdf文件均为1 KB。我不得不使用requests.get(pdf_url, stream=True)来完全下载所有pdf文件，但这太慢了。我想知道scrapy文件管道是否具有类似的方法吗？

Answer 1

不确定scrapy是否可以完成这项工作。您可以使用wget库进行下载。

import wget
pdf_url = "url_of_the_pdf.pdf"
wget.download(pdf_url)

可以完全下载pdf

1 个答案: