大师
我试图在citibike数据页面上提取URL,然后下载这些zip文件。但是,以下代码返回null。有人可以给些提示吗?感谢您的帮助!
from bs4 import BeautifulSoup
from urllib.request import Request, urlopen
import re
req = Request("https://s3.amazonaws.com/tripdata/index.html")
html_page = urlopen(req)
soup = BeautifulSoup(html_page, "lxml")
links = []
for link in soup.findAll('a'):
links.append(link.get('href'))
print(links)
答案 0 :(得分:2)
请求的页面实际上是“空白”(不包含任何链接)。必需的链接来自XML格式的另一个URL。
您可以在下面尝试获得所需的输出:
<script src="https://ajax.googleapis.com/ajax/libs/jquery/2.1.0/jquery.min.js"></script>
<p>This is a price: <span class="price" data-cost="abc"></span>.</p>
<p>This is another price: <span class="price" data-cost="def"></span>.</p>