我正在尝试使用以下模式从网页中提取网址:
'http://www.realclearpolitics.com/epolls/????/governor/??/ - 的.html'
我当前的代码提取所有链接。如何更改我的代码以仅提取与模式匹配的URL?谢谢!
g.drawRect( 0,0,1,1)
答案 0 :(得分:1)
您可以为href
提供regular expression pattern .find_all()
参数值:
import re
pattern = re.compile(r"http://www.realclearpolitics.com\/epolls/\d+/governor/.*?/.*?.html")
links = soup.find_all("a", href=pattern)