美丽的汤解析与不一致的hrefs标签

时间:2017-01-23 20:18:26

标签: beautifulsoup

我知道可以在html页面中提取所有标签:

  mydivs = soup.findAll("a")

但是如果我只想要具有这种格式的标签呢?

<a href="/experiments/ENCSR7EADCH/">
<a href="/experiments/ENCSR77RTSA/">
<a href="/experiments/ENCSR75YUDJ/">
<a href="/experiments/ENCSR779CZG/">

我试过了:

mydivs = soup.findAll("a", { "href" : "/experiments/ENCSR*" })

但这会返回一个空列表....

任何提示?

1 个答案:

答案 0 :(得分:0)

regular expression

import re
mydivs = soup.findAll("a", href=re.compile(r"/experiments/ENCSR"))

CSS Selector

mydivs = soup.select('a[href^="/experiments/ENCSR"]')