捕捉段落的一部分beautifulSoup

时间:2019-04-04 13:23:32

标签: python beautifulsoup

我在汤对象上使用了findAll函数来查找所需的数据。我所需要的只是准确地检索我想要的 a href 链接。 这是我拥有的:

Soup[0].a
#output:
<a href="School">
<div class="name">XXX</div>6 Lemaitre Avenue 65000</a>

我可以使用链接的 attribs 和导航到div的学校名称来获取参考(学校),但我似乎无法获取链接的最后一部分,即学校的地址(此部分位于此处-- 6 Lemaitre Avenue 65000

1 个答案:

答案 0 :(得分:0)

尝试使用Next_element。

from bs4 import BeautifulSoup
import re
html = '''
<a href="School">
<div class="name">XXX</div>6 Lemaitre Avenue 65000</a>
'''
soup = BeautifulSoup(html,'html.parser')
items=soup.find_all('a',href=re.compile("School"))
for item in items:
    item=item.find('div').next_element.next_element
    print(item)

输出:

6 Lemaitre Avenue 65000