转换为字符串未标记的孩子漂亮的汤

时间:2018-09-08 05:45:35

标签: python web-scraping beautifulsoup

我正在尝试使用BeautifulSoup4剪贴一些html文档,但我一直在试图剪贴此div:

<div class="small-info" style="margin-top: 4px;">
                5
                 <sup>th</sup>  
                August 2018
</div>

我正试图获得“ 2018年8月5日”,我该怎么办?

1 个答案:

答案 0 :(得分:2)

您必须使用get_text()并删除多余的空格

html="<div class='small-info' style='margin-top: 4px;''>5<sup>th</sup>August 2018</div>"
soup=BeautifulSoup(html,"lxml")
div=soup.find("div",{"class","small-info"})
text=div.get_text().replace("  ","")

#text : 5 th August 2018