BeautifulSoup解析嵌套的div标签

时间:2013-12-20 11:29:36

标签: beautifulsoup

我需要从以下结构中选择第二个div

<div>
A
  **<div>**
    B
      <div>
        C
      </div>
  </div>
</div>

<div>
A
  **<div>**
    B
      <div>
        C
      </div>
  </div>
</div>

我用select来做到这一点:

divs = soup.select("div > div")

但是除了第二个div和它的内容之外,它还分别选择第三个div作为列表的一部分。如何在我的返回列表中仅选择标记为 的div。

1 个答案:

答案 0 :(得分:0)

在Python中,您可以使用以下行:

# select all the div tags in page
divs = soup.find_all('div')

for item in divs:      
  inner_div = item.div

首先选择所有div标签,然后单独选择每个标签。如果您想翻译成另一种语言,请访问该语言的Beautiful Soup页面。