美丽的汤:获取搜索结果标签

时间:2016-10-11 00:09:02

标签: python beautifulsoup

尝试使用漂亮的汤来获取此类html代码段的内容(它是"标记"对象)。

<span class="font5"> arrives at this calculation from the Torah’s report that the deluge (rains) began on the 17<sup>th</sup> day of the second month </span>

我试过了:

soup.contents.find_all('span')
soup.find_all('span')
soup.find_all(re.compile("font[0-9]+"))
soup.string
soup.child

这些似乎都没有奏效。我该怎么办?

3 个答案:

答案 0 :(得分:2)

soup.find_all('span')确实有效;返回所有span代码。

如果您希望获得spanfont<N>标记,请将模式指定为关键字参数class_

soup.find_all('span', class_=re.compile('font[0-9]+'))

答案 1 :(得分:0)

如果从 font 开始是足够独特的,您也可以使用 css选择器查找以font开头的类:

soup.select("span[class^=font]")

答案 2 :(得分:0)

print ''.join(soup.findAll(text=True))

(已回答here