从html文件的元素中提取信息

时间:2014-09-09 13:20:03

标签: python html web-scraping beautifulsoup html-parsing

我想从以下字符串中提取402。我正在使用美味的汤。

<span class="bla bla bla"> <span class="ba1 ba1">  </span>402.00</span>

我尝试使用strip(),但元素bs4.element.resultset不允许这样做。

请建议我该怎么办?

任何指针都会受到赞赏

1 个答案:

答案 0 :(得分:4)

找到内部范围并获取next_sibling

soup.find('span', class_='bla').find('span', class_='ba1').next_sibling

演示:

>>> from bs4 import BeautifulSoup
>>> data = '<span class="bla bla bla"> <span class="ba1 ba1">  </span>402.00</span>'
>>> soup = BeautifulSoup(data)
>>> soup.find('span', class_='bla').find('span', class_='ba1').next_sibling
u'402.00'