美丽的汤提取细胞,但保持格式

时间:2017-11-06 04:06:36

标签: python beautifulsoup

大家:

我是美女汤的新手,在解析桌上工作,我能够达到细胞水平。让我们说细胞是我试图提取的东西......

我知道类型(单元格)是 我知道细胞内容是

<td> Raptors v. Jazz <b>UNDER 196</b> </td>

当我做cell.text时,我得到了

输出: 猛龙队与爵士队的比赛在196以下

但我真正想要的是

预期输出 猛龙队对阵爵士队 UNDER 196 因为里面的项目是胜利的团队....

我该怎么做?

提前致谢

2 个答案:

答案 0 :(得分:1)

您正在寻找decode_contents

>>> td.decode_contents()
' Raptors v. Jazz <b>UNDER 196</b> '

答案 1 :(得分:0)

让我们在extract()

上玩一些技巧
  

PageElement.extract()从树中删除标记或字符串。

示例:

<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's <i>story</i></b></p>
....

如果您只是在目标广告代码上使用extract(),则会获得

>> soup.find('p', {"class": "title"}).extract()
<p class="title"><b>The Dormouse's <i>story</i></b></p>

但如果您在标记上提取.next元素,则会得到

>> soup.find('p', {"class": "title"}).next.extract()
<b>The Dormouse's <i>story</i></b>