使用BeautifulSoup显示p标签内的所有b标签

时间:2016-11-16 16:36:27

标签: python regex django beautifulsoup

我在django中有app,我必须以特定的方式显示文本。

这是我的HTML代码:

<p class="name">
<b>Name of person</b> City, Country</p>
<p class="name">
<b>Name of person</b></p>

我希望在普通文本中以人物和城市和国家的名称加粗,例如:

**Name of person** City, Country
**Name of person**

但是我只能得到b,我怎样才能将所有的p和b都放在p里面?

我在BeautifulSoap中的代码:

people = self.concattexts.filter(code='Active')
for p in people:
    soup = BeautifulSoup(p.text_html, 'html.parser')
    all_people = [b.get_text(separator=' - ', strip=True) for b in soup.find_all('b')]
    return all_people

2 个答案:

答案 0 :(得分:0)

没有标记的文字是NavigableString

>>> soup = BeautifulSoup('<p class="name"><b>Name of person</b> City, Country</p>',
...                      'html.parser')
>>> children = list(soup.p.children)
>>> children
[<b>Name of person</b>, u' City, Country']
>>> type(children[-1])
<class 'bs4.element.NavigableString'>
>>> isinstance(children[-1], basestring)
True

我建议让p的孩子们确保他们拥有正确的结构(<b>标签后跟一个字符串),然后根据需要提取信息。

答案 1 :(得分:0)

from bs4 import BeautifulSoup
doc = '''
<p class="name">
<b>Name of person</b> City, Country</p>
<p class="name">
<b>Name of person</b></p>
'''
soup = BeautifulSoup(doc,'lxml')

for i in soup.find_all('p', class_='name'):
    print(i.get_text(separator=' - ', strip=True))

出:

Name of person - City, Country
Name of person

get_text()可以获取代码下方的所有文字,无需使用b tag,只需p tag即可正常使用