我是Python的新手。我正在构建一个网络抓取工具,可以在满足条件后在HTML单元格中打开URL。任何形式的帮助都会有用。谢谢!
这是我正在处理的HMTL代码:
<td data-href="https://www.example.com" data-th="Grade & Rate">
<div class="green inline-block m-right-10">A2</div>
<div class="inline-block">16%</div>
</td>
如果 div class =“inline-block”中的值大于16%,我想在data-href中打开网址。我知道我必须首先将百分比转换为浮点数才能做到这一点。我想知道的是如何打开URL。
到目前为止,我正在使用selenium和beautifulsoup来构建脚本。这是我如何构建项目的快照。
chromedriver = 'C:\\chromedriver.exe'
browser = webdriver.Chrome(chromedriver)
....
html = browser.page_source
soup = BeautifulSoup(html, "lxml")
tags = soup('td')
urllist = list()
for tag in tags:
z = tag.get('data-href','abcde')
if z not in urllist:
urllist.append(z)
答案 0 :(得分:-1)
您可以使用HTMLParser阅读HTML代码,并使用urllib.urlretrieve下载网址。