Question

大家：

我是美女汤的新手，在解析桌上工作，我能够达到细胞水平。让我们说细胞是我试图提取的东西......

我知道类型（单元格）是我知道细胞内容是

<td> Raptors v. Jazz <b>UNDER 196</b> </td>

当我做cell.text时，我得到了

输出： 猛龙队与爵士队的比赛在196以下

但我真正想要的是

预期输出 猛龙队对阵爵士队 UNDER 196 因为里面的项目是胜利的团队....

我该怎么做？

提前致谢

Answer 1

您正在寻找decode_contents：

>>> td.decode_contents()
' Raptors v. Jazz <b>UNDER 196</b> '

Answer 2

让我们在extract()

上玩一些技巧

PageElement.extract（）从树中删除标记或字符串。

示例：

<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's <i>story</i></b></p>
....

如果您只是在目标广告代码上使用extract()，则会获得

>> soup.find('p', {"class": "title"}).extract()
<p class="title"><b>The Dormouse's <i>story</i></b></p>

但如果您在标记上提取.next元素，则会得到

>> soup.find('p', {"class": "title"}).next.extract()
<b>The Dormouse's <i>story</i></b>