在python3中使用带有beautifulsoup的子字符串查找html标签

时间:2018-10-25 09:49:38

标签: python html beautifulsoup substring

使用以下代码:

url ='http://lampspw.wallonie.be/dgo4/site_ipic/index.php/fiche/index?sortCol=2&sortDir=asc&start=0&nbElemPage=10&filtre=&codeInt=62121-INV-0018-02'
soup = BeautifulSoup(page.content, 'html.parser')
t = soup.find_all("div", attrs={'class':'panel-heading'})
lst = [x.text for x in t]

我获得:

['\xa0Filtres complémentaires',
 '\xa0Recherche dans les notices',
 'Libellé(s)\xa0',
 'Illustration(s)',
 'Localisation',...]

如果我直接在汤中寻找带有子字符串的特定标签(包含在该列表中):

In [290]: soup.find_all("div", string=re.compile('Locali'))
Out[291]: [<div class="panel-heading">Localisation</div>]

我找到了我想要的上一个标签之一。但是如果我这样做:

In :soup.find_all("div", string=re.compile('Libe'))
Out: []

有人可以在这里解释问题吗?我猜它位于html代码中,但我找不到它...

1 个答案:

答案 0 :(得分:0)

感谢kcorlidy: soup.find_all(string = re.compile('Libe'))将得到结果