Question

我正试图从这两个网站获取牛皮癣患者的临床图像用于研究目的：

对于第一个网站，我尝试使用firefox保存页面，但它只保存了缩略图而不是全尺寸图像。我能够使用名为“downloadthemall”的firefox插件访问全尺寸图像，但它将每个图像保存为新的html页面的一部分，我不知道有任何方法只提取图像。

我也试过上大学的一台Linux机器并使用wget镜像网站，但是我无法让它工作，我仍然不确定为什么。

因此，我想知道编写一个简短的脚本（或任何方法最简单）是否容易（a）获得与第一个网站链接的全尺寸图像，以及（b）获得所有完整图像 - 第二个网站上的大小图像，文件名中包含“牛皮癣”。

我已经编程了几年，但对网络开发没有任何经验，并且会对如何做到这一点表示感谢。

Answer 1

为什么不使用wget以递归方式从域中下载图像？这是一个例子：

wget -r -P /save/location -A jpeg,jpg,bmp,gif,png http://www.domain.com

Answer 2

尝试HTTrack网站复印机 - 它将加载网站上的所有图像。您也可以尝试http://htmlparser.sourceforge.net/。如果您在org.htmlparser.parserapplications.SiteCapturer

中指定网站，它也将使用资源获取网站