BeautifulSoup:从findAll ResultSet中剥离HTML标记

时间:2013-10-31 05:12:47

标签: python beautifulsoup

我正在尝试从soup.html.body.findAll('td', {'class':'yfnc_h'})

的ResultSet中删除所有HTML标记

目前,ResultSet有时包含嵌套的<a href><td>和其他标记。我发现的唯一一个对ResultSet(而不是汤对象)起作用的半解决方案是RSelement.string

但是,.string无法处理具有多个嵌套标记的输入,例如

输入:<td class="yfnc_h" align="right">53.50</td>

输出:53.50

输入:<td class="yfnc_h" align="right"><b>51.97</b></td>

输出:None

输入:<td class="yfnc_h" align="right"><span id="yfs_c10_djx131116c00100000"> <b style="color:#000000;">0.00</b></span></td>

输出:无

如何从ResultSet输出中删除所有标记?

1 个答案:

答案 0 :(得分:3)

改为使用.text属性:

print RSelement.text