Question

如何在bs4中提取div的内容：

>>> Doc
<div class="document">
<p>Text.</p>
<p>More text</p>
</div>

>>> type(Doc)
bs4.element.Tag

我希望得到

<p>Text.</p>
<p>More text</p>

Answer 1

使用.contents：

>>> Doc = soup.find('div', {'class': 'document'}) # assuming soup is your main content
>>> for i in [x for x in Doc.contents if x != '\n']:
...     print i
... 
<p>Text.</p>
<p>More text</p>

Answer 2

要获得div的全部内容，无论其中包含哪些元素，请使用soup.find("div").prettify()来有效地获取内部HTML。

提取div的内容？

2 个答案: