Citibike数据下载

时间:2018-09-18 16:19:12

标签: python web-scraping

大师

我试图在citibike数据页面上提取URL,然后下载这些zip文件。但是,以下代码返回null。有人可以给些提示吗?感谢您的帮助!

from bs4 import BeautifulSoup
from urllib.request import Request, urlopen
import re

req = Request("https://s3.amazonaws.com/tripdata/index.html")
html_page = urlopen(req)

soup = BeautifulSoup(html_page, "lxml")

links = []
for link in soup.findAll('a'):
    links.append(link.get('href'))

print(links)

1 个答案:

答案 0 :(得分:2)

请求的页面实际上是“空白”(不包含任何链接)。必需的链接来自XML格式的另一个URL。

您可以在下面尝试获得所需的输出:

<script src="https://ajax.googleapis.com/ajax/libs/jquery/2.1.0/jquery.min.js"></script>
<p>This is a price: <span class="price" data-cost="abc"></span>.</p>
<p>This is another price: <span class="price" data-cost="def"></span>.</p>