使用python beautifulsoup4查找以.rss结尾的网址

时间:2017-03-16 15:12:26

标签: python beautifulsoup

我正试图找到一种方法来获取类似于itunes电影预告片的RSS提要网址。

<a href="http://trailers.apple.com/trailers/home/rss/newtrailers.rss">

如何使用beautifulsoup匹配以.rss结尾的网址?

2 个答案:

答案 0 :(得分:2)

您可以使用re模块并传递正则表达式模式以匹配该属性,例如要匹配字符串末尾的 rss ,您可以使用rss$

soup = BeautifulSoup("""<a href="http://trailers.apple.com/trailers/home/rss/newtrailers.rss"></a>
<a href="http://trailers.apple.com/trailers/home/rss/newtrailers"></a>""", "html.parser")

import re
soup.find_all("a", {"href": re.compile("rss$")})
# [<a href="http://trailers.apple.com/trailers/home/rss/newtrailers.rss"></a>]

答案 1 :(得分:0)

您可以遍历在网页中找到的所有a代码,并检查他们的href字段是否以.rss结尾

for link in page.findAll(`a`):
    if link['href'].endswith('.rss'):
        **do something**