从网页下载多个PDF文件

时间:2018-03-14 13:12:16

标签: python pdf beautifulsoup python-requests

所以我试图下载一些我通过简单的捆绑购买的电子书。我正在使用beautifulsoup并请求尝试解析html并获取pdf的href链接。

Python

import requests
from bs4 import BeautifulSoup

r = requests.get("https://www.humblebundle.com/downloads?key=fkuzzq6R8MA8ydEw")


soup = BeautifulSoup(r.content, "html.parser")
links = soup.find_all("div", {"class": "js-all-downloads-holder"})
print(links)

我将把一个imgar链接放到网站和html布局,因为我不相信你可以在不提示登录的情况下访问html页面(这可能是我开始时遇到这个问题的原因之一)。 )https://imgur.com/24x2X0m

HTML

<div class="flexbtn active noicon js-start-download">
    <div class="right"></div>
    <span class="label">PDF</span>
        <a class="a" download="" href="https://dl.humble.com/makea2drpginaweekend.pdf?gamekey=fkuzzq6R8MA8ydEw&amp;ttl=1521117317&amp;t=b714bb732413a1f0532ec6aa72b282f9">
            PDF
          </a>
      </div>

因此print语句应该输出到div的内容,但事实并非如此。

输出

python3 pdf_downloader.py 
[]

很抱歉这篇长篇文章,我刚刚整夜都在努力工作,而且此时下载按钮20次以上会更容易,但这不是你学习的方式。

0 个答案:

没有答案