我正在使用python2,我想在html页面中获取div的内容。
<div class="lts-txt2">
Some Content
</div>
如果div类如上所述,那么我可以使用
获取内容BeautifulSoup.find_all('div', attrs={"class": 'lts-txt2'})
但如果div就像,
<div class="lts-txt2">
<div align="justify">
Some Content
</div>
</div>
然后使用
BeautifulSoup.find_all('div', attrs={"class": 'lts-txt2'})
不返回内容。 所以我尝试了
BeautifulSoup.find_all('div', attrs={"align": 'justify'})
但它也没有奏效。 我该如何解决这个问题。
答案 0 :(得分:0)
您可以使用Element.get_text()
method从节点(包括嵌套节点)中提取所有文本:
[el.get_text() for el in soup.find_all('div', attrs={"class": 'lts-txt2'})]
这会生成一个列表,其中包含每个div
的文本内容,不管是否有嵌套的div
。
您还可以使用CSS selector Element.select()
function选择嵌套div:
soup.select('div.lts-txt2 > div')