所以我试图下载一些我通过简单的捆绑购买的电子书。我正在使用beautifulsoup并请求尝试解析html并获取pdf的href链接。
Python
import requests
from bs4 import BeautifulSoup
r = requests.get("https://www.humblebundle.com/downloads?key=fkuzzq6R8MA8ydEw")
soup = BeautifulSoup(r.content, "html.parser")
links = soup.find_all("div", {"class": "js-all-downloads-holder"})
print(links)
我将把一个imgar链接放到网站和html布局,因为我不相信你可以在不提示登录的情况下访问html页面(这可能是我开始时遇到这个问题的原因之一)。 )https://imgur.com/24x2X0m
HTML
<div class="flexbtn active noicon js-start-download">
<div class="right"></div>
<span class="label">PDF</span>
<a class="a" download="" href="https://dl.humble.com/makea2drpginaweekend.pdf?gamekey=fkuzzq6R8MA8ydEw&ttl=1521117317&t=b714bb732413a1f0532ec6aa72b282f9">
PDF
</a>
</div>
因此print语句应该输出到div的内容,但事实并非如此。
输出
python3 pdf_downloader.py
[]
很抱歉这篇长篇文章,我刚刚整夜都在努力工作,而且此时下载按钮20次以上会更容易,但这不是你学习的方式。