提取 <a href> 标签的特定值

时间:2021-07-08 02:38:09

标签: python web-scraping

我只需要从位于此标签中的网站上刮下号码。顺便说一句,我正在使用 Python 和 BeautifulSoup

<p class="cell-link">
  <a href="/#/miner-list/offline-list">17</a>
</p>

我已经在网上寻找解决方案,但由于该网站每 5 分钟自动更新一次,我似乎无法找到获取此号码的方法。任何建议都会非常有帮助。

2 个答案:

答案 0 :(得分:1)

使用正则表达式捕获组来获取该数字。使用 regex101.com 测试您的正则表达式。

html = '<a href="/#/miner-list/offline-list">17</a>'

miner_num = re.sub('<a href=\"/#/miner-list/offline-list\">(.*)</a>', r'\1', html)
print(miner_num)
# 17

答案 1 :(得分:1)

由于您已经在使用 BeautifulSoup,请使用选择器查找值。

from bs4 import BeautifulSoup
text = '<p class="cell-link">\n  <a href="/#/miner-list/offline-list">17</a>\n</p>'

soup = BeautifulSoup(text, 'html.parser')
value = soup.select_one(".cell-link a").text
print(value) # 17

选择器 ".cell-link a" 查找父元素为 <a>class="cell-link" 元素。

相关问题