Question

所以我试图下载一些我通过简单的捆绑购买的电子书。我正在使用beautifulsoup并请求尝试解析html并获取pdf的href链接。

Python

import requests
from bs4 import BeautifulSoup

r = requests.get("https://www.humblebundle.com/downloads?key=fkuzzq6R8MA8ydEw")


soup = BeautifulSoup(r.content, "html.parser")
links = soup.find_all("div", {"class": "js-all-downloads-holder"})
print(links)

我将把一个imgar链接放到网站和html布局，因为我不相信你可以在不提示登录的情况下访问html页面（这可能是我开始时遇到这个问题的原因之一）。）https://imgur.com/24x2X0m

HTML

<div class="flexbtn active noicon js-start-download">
    <div class="right"></div>
    <span class="label">PDF</span>
        <a class="a" download="" href="https://dl.humble.com/makea2drpginaweekend.pdf?gamekey=fkuzzq6R8MA8ydEw&amp;ttl=1521117317&amp;t=b714bb732413a1f0532ec6aa72b282f9">
            PDF
          </a>
      </div>

因此print语句应该输出到div的内容，但事实并非如此。

输出

python3 pdf_downloader.py 
[]

很抱歉这篇长篇文章，我刚刚整夜都在努力工作，而且此时下载按钮20次以上会更容易，但这不是你学习的方式。

从网页下载多个PDF文件

0 个答案: