打开美丽的汤,不删除所有标签

时间:2016-03-22 14:08:30

标签: python html python-3.x web-scraping beautifulsoup

以下代码提供了如下所示的HTML代码:

from urllib.request import urlopen
from bs4 import BeautifulSoup

# open webpage
url = "https://www.google.com/finance?cid=12377955"
pageSource = urlopen(url).read()

# parse HTML into Beautiful Soup
savSoup = BeautifulSoup(pageSource, "html.parser")

# extract data from soup
divData = savSoup.find_all("span", class_= "pr")

print(divData)
---

这将在命令行中返回:

---
[<span class="pr">
<span id="ref_12377955_1">2.13</span>
</span>]

我在2.13之后 - 我已经从这里得到了一些答案,但我最接近的是仅删除了span类标签 - 我似乎无法移动id。

1 个答案:

答案 0 :(得分:0)

由于您正在寻找单个元素,因此请使用.find()代替.find_all()here来获取元素的文字:

value = savSoup.find("span", class_= "pr").get_text(strip=True)

strip=True这将有助于删除文本周围的额外换行符和空格。

然后,您可以使用float(value)进一步将其转换为浮点数。