没有类属性

时间:2016-09-06 17:34:30

标签: python html beautifulsoup

我正在使用python2,我想在html页面中获取div的内容。

<div class="lts-txt2"> 
   Some Content 
</div>

如果div类如上所述,那么我可以使用

获取内容
BeautifulSoup.find_all('div', attrs={"class": 'lts-txt2'})

但如果div就像,

<div class="lts-txt2">
   <div align="justify">
      Some Content 
   </div>
</div>

然后使用

BeautifulSoup.find_all('div', attrs={"class": 'lts-txt2'})

不返回内容。 所以我尝试了

BeautifulSoup.find_all('div', attrs={"align": 'justify'})

但它也没有奏效。 我该如何解决这个问题。

1 个答案:

答案 0 :(得分:0)

您可以使用Element.get_text() method节点(包括嵌套节点)中提取所有文本:

[el.get_text() for el in soup.find_all('div', attrs={"class": 'lts-txt2'})]

这会生成一个列表,其中包含每个div的文本内容,不管是否有嵌套的div

您还可以使用CSS selector Element.select() function选择嵌套div:

soup.select('div.lts-txt2 > div')