如何从网站上抓取完整尺寸的图像?

时间:2012-03-07 00:03:22

标签: java python image screen-scraping

我正试图从这两个网站获取牛皮癣患者的临床图像用于研究目的:

http://www.dermis.net/dermisroot/en/31346/diagnose.htm

http://dermatlas.med.jhmi.edu/derm/

对于第一个网站,我尝试使用firefox保存页面,但它只保存了缩略图而不是全尺寸图像。我能够使用名为“downloadthemall”的firefox插件访问全尺寸图像,但它将每个图像保存为新的html页面的一部分,我不知道有任何方法只提取图像。

我也试过上大学的一台Linux机器并使用wget镜像网站,但是我无法让它工作,我仍然不确定为什么。

因此,我想知道编写一个简短的脚本(或任何方法最简单)是否容易(a)获得与第一个网站链接的全尺寸图像,以及(b)获得所有完整图像 - 第二个网站上的大小图像,文件名中包含“牛皮癣”。

我已经编程了几年,但对网络开发没有任何经验,并且会对如何做到这一点表示感谢。

2 个答案:

答案 0 :(得分:2)

为什么不使用wget以递归方式从域中下载图像?这是一个例子:

wget -r -P /save/location -A jpeg,jpg,bmp,gif,png http://www.domain.com

以下是手册页:http://www.gnu.org/software/wget/manual/wget.html

答案 1 :(得分:0)

尝试HTTrack网站复印机 - 它将加载网站上的所有图像。您也可以尝试http://htmlparser.sourceforge.net/。如果您在org.htmlparser.parserapplications.SiteCapturer

中指定网站,它也将使用资源获取网站