使用BeautifulSoup提取外部div

时间:2011-06-11 05:17:57

标签: python beautifulsoup

如果HTML代码如下所示:

<div class="div1">
<p>hello</p>
<p>hi</p>
    <div class="nesteddiv">
        <p>one</p>
        <p>two</p>
        <p>three</p>
    </div>
</div>

如何提取

<div class="div1">
    <p>hello</p>
    <p>hi</p>
</div>

我已经尝试了parser.find('div', 'div1'),但我得到了整个div,包括嵌套的。

2 个答案:

答案 0 :(得分:2)

您实际上想从文档中 extract() 嵌套 div,然后获取第一个{{ 1}}。以下是一个示例(div是您在问题中提供的HTML):

html

答案 1 :(得分:1)

为什么不只是找到()嵌套的div,然后使用extract()?

将其从树中删除