我正在尝试从soup.html.body.findAll('td', {'class':'yfnc_h'})
目前,ResultSet有时包含嵌套的<a href>
,<td>
和其他标记。我发现的唯一一个对ResultSet(而不是汤对象)起作用的半解决方案是RSelement.string
但是,.string
无法处理具有多个嵌套标记的输入,例如
输入:<td class="yfnc_h" align="right">53.50</td>
输出:53.50
输入:<td class="yfnc_h" align="right"><b>51.97</b></td>
输出:None
输入:<td class="yfnc_h" align="right"><span id="yfs_c10_djx131116c00100000"> <b style="color:#000000;">0.00</b></span></td>
输出:无
如何从ResultSet输出中删除所有标记?
答案 0 :(得分:3)
改为使用.text
属性:
print RSelement.text