Question

我正在尝试使用以下模式从网页中提取网址：

'http://www.realclearpolitics.com/epolls/????/governor/??/ - 的.html'

我当前的代码提取所有链接。如何更改我的代码以仅提取与模式匹配的URL？谢谢！

g.drawRect( 0,0,1,1)

Answer 1

您可以为href提供regular expression pattern .find_all()参数值：

import re

pattern = re.compile(r"http://www.realclearpolitics.com\/epolls/\d+/governor/.*?/.*?.html")
links = soup.find_all("a", href=pattern)