我想用一个脚本来获取本网站上的所有图片。我用chrome开发人员工具查看了主页的源代码。这些图片网址就像
src="http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192
但如果我使用wget
或curl
下载此页面,甚至在浏览器中“保存pave”,则该html文件中没有此类链接。我不知道如何获得所有这些链接。另一个问题是如果我们向下滚动页面,图像会连续出现。我不知道是否有办法获得整个页面。
答案 0 :(得分:1)
您可以将网址发布到您想要下载所有图片的最后一页吗?
或者您的意思是 http://huaban.com/目标网页上的所有图片?
使用以下代码,您可以将图像URL“保存”到文件系统上的文件中:
image_path = 'http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192'
with open(r'<path_to_file>.jpg', 'wb') as image:
image.write(urllib2.urlopen(image_path).read())
但要检索图像'source'pathes ...我担心它们会由javascript组件生成,所以你没有太多选择。
也许一个解决方案可能是使用无头浏览器或JavaScript引擎桥(如Python-Spidermonkey)来获取最终的(js-buidled)html内容。
-Colin -