如何提取与模式匹配的URL

时间:2016-05-17 20:01:29

标签: python-2.7 web-scraping beautifulsoup python-requests

我正在尝试使用以下模式从网页中提取网址:

  

'http://www.realclearpolitics.com/epolls/????/governor/??/ - 的.html'

我当前的代码提取所有链接。如何更改我的代码以仅提取与模式匹配的URL?谢谢!

g.drawRect( 0,0,1,1)

1 个答案:

答案 0 :(得分:1)

您可以为href提供regular expression pattern .find_all()参数值:

import re

pattern = re.compile(r"http://www.realclearpolitics.com\/epolls/\d+/governor/.*?/.*?.html")
links = soup.find_all("a", href=pattern)