Question

我想用一个脚本来获取本网站上的所有图片。我用chrome开发人员工具查看了主页的源代码。这些图片网址就像

src="http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192

但如果我使用wget或curl下载此页面，甚至在浏览器中“保存pave”，则该html文件中没有此类链接。我不知道如何获得所有这些链接。另一个问题是如果我们向下滚动页面，图像会连续出现。我不知道是否有办法获得整个页面。

Answer 1

您可以将网址发布到您想要下载所有图片的最后一页吗？

或者您的意思是 http://huaban.com/目标网页上的所有图片？

使用以下代码，您可以将图像URL“保存”到文件系统上的文件中：

image_path = 'http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192'
with open(r'<path_to_file>.jpg', 'wb') as image:
    image.write(urllib2.urlopen(image_path).read())

但要检索图像'source'pathes ...我担心它们会由javascript组件生成，所以你没有太多选择。

也许一个解决方案可能是使用无头浏览器或JavaScript引擎桥（如Python-Spidermonkey）来获取最终的（js-buidled）html内容。

-Colin -

如何在本网站下载所有图片：huaban.com

1 个答案: