大家:
我是美女汤的新手,在解析桌上工作,我能够达到细胞水平。让我们说细胞是我试图提取的东西......
我知道类型(单元格)是 我知道细胞内容是
<td> Raptors v. Jazz <b>UNDER 196</b> </td>
当我做cell.text时,我得到了
输出: 猛龙队与爵士队的比赛在196以下
但我真正想要的是
预期输出 猛龙队对阵爵士队 UNDER 196 因为里面的项目是胜利的团队....
我该怎么做?
提前致谢
答案 0 :(得分:1)
您正在寻找decode_contents
:
>>> td.decode_contents()
' Raptors v. Jazz <b>UNDER 196</b> '
答案 1 :(得分:0)
让我们在extract()
PageElement.extract()从树中删除标记或字符串。
示例:
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's <i>story</i></b></p>
....
如果您只是在目标广告代码上使用extract()
,则会获得
>> soup.find('p', {"class": "title"}).extract()
<p class="title"><b>The Dormouse's <i>story</i></b></p>
但如果您在标记上提取.next
元素,则会得到
>> soup.find('p', {"class": "title"}).next.extract()
<b>The Dormouse's <i>story</i></b>