如何使用美汤找到没有兄弟姐妹的P标签

时间:2019-01-28 08:09:27

标签: python web-scraping beautifulsoup

有些<p></p>标签具有<img>标签和<h4>标签,但我只希望那些没有同级标签的<p>标签只是内容。

 <p> <img src="any url"/> </p>     <p> hello world </p>

我想要<p>标签,而没有<img>标签使用漂亮的汤

4 个答案:

答案 0 :(得分:0)

这将获取<p>元素中的所有文本,但不会从<p>中的任何子元素中获取它。递归需要等于false,否则它将调查子元素。我添加了另一个测试用例供您显示:<p><h4>Heading</h4></p>

from bs4 import BeautifulSoup

html = "<p> <img src='any url'/> </p>   <p><h4>Heading</h4></p>  <p> hello world </p>"

soup = BeautifulSoup(html)

for element in soup.findAll('p'):
    print("".join(element.findAll(text=True, recursive=False)))

答案 1 :(得分:0)

一种获取所有p标签且没有子标签的解决方案。

import bs4
html="""<p> <img src="any url"/> </p>     <p> hello world </p>"""
soup=bs4.BeautifulSoup(html,"html.parser")

def has_no_tag_children(tag):
    if  type(tag) is bs4.element.Tag: #check if tag
        if tag.name =='p': #check if it is p tag
            if  bs4.element.Tag not in [type(child) for child in tag.children]: # check if has any tag children
                return True
    return False

kids=soup.find_all(has_no_tag_children)
print(kids)

输出

[<p> hello world </p>]

答案 2 :(得分:0)

假设BeautifulSoup 4.7+,您应该能够做到:

import bs4
html="""<p> <img src="any url"/> </p>     <p> hello world </p>"""
soup=bs4.BeautifulSoup(html,"html.parser")

kids=soup.select("p:not(:has(*))")
print(kids)

答案 3 :(得分:-1)

from bs4 import BeautifulSoup

txt = """
<p> <img src="any url"/> </p>     <p> hello world </p>
"""

soup = BeautifulSoup(txt)

for node in soup.findAll('p'):
    print(' '.join(node.findAll(text=True, recursive = False)))

输出:

  

你好世界