python正则表达式找不到所有图像文件

时间:2013-08-30 19:15:45

标签: python regex python-2.7

我正在尝试使用re.compile

来抓取网页中的所有图像文件
title=re.compile("<img src='(.*)jpg'")

但是它无法捕捉到以“jpg”结尾的所有场景,它只有3个非常长的字符串在网页上有很多图像(很多链接以jpg结尾),有人可以帮助我。 提前致谢

1 个答案:

答案 0 :(得分:1)

你的表情太贪心了。统治它:

re.compile("<img src='([^']*)jpg'")

但是,更好的方法是使用正确的HTML解析器,例如BeautifulSoup

for image in soup.find_all('img', src=True):
    print image['src']
例如,

会查找具有<img />属性的所有src代码。