如何使用BeautifulSoup仅从具有特定开始的标记中获取字符串?

时间:2016-08-23 14:09:52

标签: python beautifulsoup

我正在抓取用户名,所有这些用户名都在同一个标​​签中,并且它们的hrefs都是相同的,就像这样:

<a href="http://lolprofile.net/summoner/eune/Sadastyczny" class="link5">Sadastyczny</a>

我尝试只查找它们是否有类link5但是还有其他值具有我不想要的那个类。那么有没有办法搜索所有具有

的标签
href="http://lolprofile.net/summoner"

在其中但不是其余的,因为显然每个用户名都不同?

1 个答案:

答案 0 :(得分:1)

来自BeautifulSoup documentation

使用正则表达式可以匹配网站。如果您从未听说过正则表达式,可以使用:

soup.find_all(href=re.compile("http://lolprofile.net/summoner/*"))

不要忘记导入re - 模块!