我很难解析此网页中的所有链接:https://recordings.engineering.illinois.edu:8443/ess/portal/section/8a3458dc-ed31-4c93-8e3e-3b64b1f89fe8 我基本上想要解析所有链接,然后只保留您看到的视频文件链接以下载每个讲座。
导入httplib2 来自bs4 import BeautifulSoup,SoupStrainer
http = httplib2.Http()
status, response = http.request('https://recordings.engineering.illinois.edu:8443/ess/portal/section/8a3458dc-ed31-4c93-8e3e-3b64b1f89fe8')
for link in BeautifulSoup(response, "html.parser",parse_only =SoupStrainer('a')):
if link.has_attr('href'):
print link['href']
以上是我应该解析链接的代码。
然后我将使用webbrowser.open_new_tab(url)
的内容在每个链接上打开一个新标签(这就是开始下载每个视频所需的全部内容)。
似乎beautifulsoup很难获得此特定网址的链接。它可以很好地与其他更简单的页面一起使用。关于这个问题的任何想法?