我需要使用python和漂亮的汤从网站上抓取数据。我有以下HTML代码,我只需要抓取贡献者。
<a href="website//contributors">
<span class="num text-emphasized">
731
</span>
"contributors"
</a>
如何从这段代码中抓取731哪个贡献者的数据?我无法使用span和class =&#34; num text-emphasized&#34;因为它不是贡献者独有的。我需要从这个HTML文件中删除731?请帮帮忙?
答案 0 :(得分:0)
对于您提供的HTML,您可以按如下方式提取731
:
from bs4 import BeautifulSoup
html = """<a href="website//contributors">
<span class="num text-emphasized">
731
</span>
"contributors"
</a>"""
soup = BeautifulSoup(html, "html.parser")
contributor_data = soup.a.span.get_text(strip=True)