我知道我想做的事情很简单,但却让我感到悲痛。我想使用BeautifulSoup从HTML中提取数据。为此,我需要正确使用.find()
函数。这是我正在使用的HTML:
<div class="audit">
<div class="profile-info">
<img class="profile-pic" src="https://pbs.twimg.com/profile_images/471758097036226560/tLLeiOiL_normal.jpeg" />
<h4>Ed Boon</h4>
<span class="screen-name"><a href="http://www.twitter.com/noobde" target="_blank">@noobde</a></span>
</div>
<div class="followers">
<div class="pie"></div>
<div class="pie-data">
<span class="real number" data-value=73599>73,599</span><span class="real"> Real</span><br />
<span class="fake number" data-value=32452>32,452</span><span class="fake"> Fake</span><br />
<h6>Followers</h6>
</div>
</div>
<div class="score">
<img src="//twitteraudit-prod.s3.amazonaws.com/dist/f977287de6281fe3e1ef36d48d996fb83dd6a876/img/audit-result-good.png" />
<div class="percentage good">
69%
</div>
<h6>Audit score</h6>
我想要的值是来自73599
的{{1}},来自data-value=73599
的{{1}}和来自32352
的{{1}}。
使用过去的代码和在线示例,这是我到目前为止:
data-value=32452
到目前为止都没有效果。我不确定如何制作查找以获取69%
数字。
答案 0 :(得分:10)
soup.find("div", {"class":"real number"})['data-value']
您正在搜索div
元素,但span
在您的示例HTML数据中包含“实数”类,请尝试改为:
soup.find("span", {"class": "real number", "data-value": True})['data-value']
此处我们还检查是否存在data-value
属性。
要查找具有“实数”或“假号”类别的元素,您可以制作CSS selector:
for elm in soup.select(".real.number,.fake.number"):
print(elm.get("data-value"))
获取69%
值:
soup.find("div", {"class": "percentage good"}).get_text(strip=True)
或者,CSS选择器:
soup.select_one(".percentage.good").get_text(strip=True)
soup.select_one(".score .percentage").get_text(strip=True)
或者,找到包含h6
文字的Audit score
元素,然后获取preceding sibling:
soup.find("h6", text="Audit score").previous_sibling.get_text(strip=True)