尝试使用漂亮的汤来获取此类html代码段的内容(它是"标记"对象)。
<span class="font5"> arrives at this calculation from the Torah’s report that the deluge (rains) began on the 17<sup>th</sup> day of the second month </span>
我试过了:
soup.contents.find_all('span')
soup.find_all('span')
soup.find_all(re.compile("font[0-9]+"))
soup.string
soup.child
这些似乎都没有奏效。我该怎么办?
答案 0 :(得分:2)
soup.find_all('span')
确实有效;返回所有span
代码。
如果您希望获得span
类font<N>
标记,请将模式指定为关键字参数class_
:
soup.find_all('span', class_=re.compile('font[0-9]+'))
答案 1 :(得分:0)
如果从 font 开始是足够独特的,您也可以使用 css选择器查找以font开头的类:
soup.select("span[class^=font]")
答案 2 :(得分:0)
print ''.join(soup.findAll(text=True))
(已回答here)