以下代码提供了如下所示的HTML代码:
from urllib.request import urlopen
from bs4 import BeautifulSoup
# open webpage
url = "https://www.google.com/finance?cid=12377955"
pageSource = urlopen(url).read()
# parse HTML into Beautiful Soup
savSoup = BeautifulSoup(pageSource, "html.parser")
# extract data from soup
divData = savSoup.find_all("span", class_= "pr")
print(divData)
---
这将在命令行中返回:
---
[<span class="pr">
<span id="ref_12377955_1">2.13</span>
</span>]
我在2.13之后 - 我已经从这里得到了一些答案,但我最接近的是仅删除了span类标签 - 我似乎无法移动id。
答案 0 :(得分:0)
由于您正在寻找单个元素,因此请使用.find()
代替.find_all()
和here来获取元素的文字:
value = savSoup.find("span", class_= "pr").get_text(strip=True)
strip=True
这将有助于删除文本周围的额外换行符和空格。
然后,您可以使用float(value)
进一步将其转换为浮点数。