我有下面的html代码,我正在尝试将3:40提取为我的python脚本中使用的文本。我该如何抓住这些信息?
答案 0 :(得分:0)
我会使用BeautifulSoup库。以下是我将如何知道您已经拥有HTML文件的信息:
from bs4 import BeautifulSoup
with open(html_path) as html_file:
html_page = BeautifulSoup(html_file, 'html.parser')
div = html_page.find('div', class_='playbackTimeline__duration')
span = div.find('span', {'aria-hidden': 'true'})
text = span.get_text()
我不确定它是否有效,但它可以让你知道如何做这种事情。检查"网页抓取"如果您想了解更多相关信息。 :)