我正在尝试使用BeautifulSoup4剪贴一些html文档,但我一直在试图剪贴此div:
<div class="small-info" style="margin-top: 4px;">
5
<sup>th</sup>
August 2018
</div>
我正试图获得“ 2018年8月5日”,我该怎么办?
答案 0 :(得分:2)
您必须使用get_text()
并删除多余的空格
html="<div class='small-info' style='margin-top: 4px;''>5<sup>th</sup>August 2018</div>"
soup=BeautifulSoup(html,"lxml")
div=soup.find("div",{"class","small-info"})
text=div.get_text().replace(" ","")
#text : 5 th August 2018