我正在尝试使用re.compile
来抓取网页中的所有图像文件title=re.compile("<img src='(.*)jpg'")
但是它无法捕捉到以“jpg”结尾的所有场景,它只有3个非常长的字符串在网页上有很多图像(很多链接以jpg结尾),有人可以帮助我。 提前致谢
答案 0 :(得分:1)
你的表情太贪心了。统治它:
re.compile("<img src='([^']*)jpg'")
但是,更好的方法是使用正确的HTML解析器,例如BeautifulSoup:
for image in soup.find_all('img', src=True):
print image['src']
例如,会查找具有<img />
属性的所有src
代码。