Question

我正在尝试使用re.compile

来抓取网页中的所有图像文件

title=re.compile("<img src='(.*)jpg'")

但是它无法捕捉到以“jpg”结尾的所有场景，它只有3个非常长的字符串在网页上有很多图像（很多链接以jpg结尾），有人可以帮助我。提前致谢

Answer 1

你的表情太贪心了。统治它：

re.compile("<img src='([^']*)jpg'")

但是，更好的方法是使用正确的HTML解析器，例如BeautifulSoup：

for image in soup.find_all('img', src=True):
    print image['src']

例如，

会查找具有<img />属性的所有src代码。