Question

我是Python的新手。我正在构建一个网络抓取工具，可以在满足条件后在HTML单元格中打开URL。任何形式的帮助都会有用。谢谢！

这是我正在处理的HMTL代码：

<td data-href="https://www.example.com" data-th="Grade &amp; Rate">
  <div class="green inline-block m-right-10">A2</div>
  <div class="inline-block">16%</div>
</td>

如果 div class =“inline-block”中的值大于16％，我想在data-href中打开网址。我知道我必须首先将百分比转换为浮点数才能做到这一点。我想知道的是如何打开URL。

到目前为止，我正在使用selenium和beautifulsoup来构建脚本。这是我如何构建项目的快照。

chromedriver = 'C:\\chromedriver.exe'
browser = webdriver.Chrome(chromedriver)
....
html = browser.page_source
soup = BeautifulSoup(html, "lxml")
tags = soup('td')
urllist = list()
for tag in tags:
    z = tag.get('data-href','abcde')
    if z not in urllist:
       urllist.append(z)

Answer 1

您可以使用HTMLParser阅读HTML代码，并使用urllib.urlretrieve下载网址。

满足某些条件时打开网址

1 个答案: