Question

我只需要从位于此标签中的网站上刮下号码。顺便说一句，我正在使用 Python 和 BeautifulSoup

<p class="cell-link">
  <a href="/#/miner-list/offline-list">17</a>
</p>

我已经在网上寻找解决方案，但由于该网站每 5 分钟自动更新一次，我似乎无法找到获取此号码的方法。任何建议都会非常有帮助。

Answer 1

使用正则表达式捕获组来获取该数字。使用 regex101.com 测试您的正则表达式。

html = '<a href="/#/miner-list/offline-list">17</a>'

miner_num = re.sub('<a href=\"/#/miner-list/offline-list\">(.*)</a>', r'\1', html)
print(miner_num)
# 17

Answer 2

由于您已经在使用 BeautifulSoup，请使用选择器查找值。

from bs4 import BeautifulSoup
text = '<p class="cell-link">\n  <a href="/#/miner-list/offline-list">17</a>\n</p>'

soup = BeautifulSoup(text, 'html.parser')
value = soup.select_one(".cell-link a").text
print(value) # 17

选择器 ".cell-link a" 查找父元素为 <a> 的 class="cell-link" 元素。

提取 <a href> 标签的特定值

2 个答案: