Question

大师

我试图在citibike数据页面上提取URL，然后下载这些zip文件。但是，以下代码返回null。有人可以给些提示吗？感谢您的帮助！

from bs4 import BeautifulSoup
from urllib.request import Request, urlopen
import re

req = Request("https://s3.amazonaws.com/tripdata/index.html")
html_page = urlopen(req)

soup = BeautifulSoup(html_page, "lxml")

links = []
for link in soup.findAll('a'):
    links.append(link.get('href'))

print(links)

Answer 1

请求的页面实际上是“空白”（不包含任何链接）。必需的链接来自XML格式的另一个URL。

您可以在下面尝试获得所需的输出：

<script src="https://ajax.googleapis.com/ajax/libs/jquery/2.1.0/jquery.min.js"></script>
<p>This is a price: <span class="price" data-cost="abc"></span>.</p>
<p>This is another price: <span class="price" data-cost="def"></span>.</p>

Citibike数据下载

1 个答案: