我想从由抓蜘蛛抓取的pdf Web链接中下载许多pdf文件,但是当我在文件管道中使用scrapy.Request(pdf_url)
来爬行pdf web时,最终它下载了不完整的pdf文件。除前几个文件(已完成)外,所有pdf文件均为1 KB。我不得不使用requests.get(pdf_url, stream=True)
来完全下载所有pdf文件,但这太慢了。我想知道scrapy文件管道是否具有类似的方法吗?
答案 0 :(得分:0)
不确定scrapy
是否可以完成这项工作。您可以使用wget
库进行下载。
import wget
pdf_url = "url_of_the_pdf.pdf"
wget.download(pdf_url)