我正在使用wget从网站下载所有图像,它工作正常,但它存储了所有子文件夹的网站的原始层次结构,因此图像点缀在周围。有没有办法让它将所有图像下载到一个文件夹中?我目前使用的语法是:
wget -r -A jpeg,jpg,bmp,gif,png http://www.somedomain.com
答案 0 :(得分:179)
试试这个:
wget -nd -r -P /save/location -A jpeg,jpg,bmp,gif,png http://www.somedomain.com
以下是一些更多信息:
-nd
阻止创建目录层次结构(即no directories)。
-r
启用递归检索。有关详细信息,请参阅Recursive Download。
-P
设置保存所有文件和目录的目录前缀。
-A
设置白名单以仅检索特定文件类型。字符串和模式被接受,并且两者都可以在逗号分隔列表中使用(如上所示)。有关详细信息,请参阅Types of Files。
答案 1 :(得分:125)
wget -nd -r -l 2 -A jpg,jpeg,png,gif http://t.co
-nd
:没有目录(将所有文件保存到当前目录; -P directory
更改目标目录)-r -l 2
:递归等级2 -A
:已接受的扩展程序wget -nd -H -p -A jpg,jpeg,png,gif -e robots=off example.tumblr.com/page/{1..2}
-H
:span hosts(wget默认情况下不会从不同的域或子域下载文件)-p
:页面必备条件(包括每页图像等资源)-e robots=off
:执行命令robotos=off
,好像它是.wgetrc
文件的一部分。这会关闭机器人排除,这意味着您忽略robots.txt和机器人元标记(您应该知道它带来的含义,注意)。示例:从示例目录列表中获取所有.jpg
个文件:
$ wget -nd -r -l 1 -A jpg http://example.com/listing/
答案 2 :(得分:13)
我编写了一个解决多个网站此问题的shellcript:https://github.com/eduardschaeli/wget-image-scraper
(使用wget从网址列表中抓取图片)
答案 3 :(得分:9)
试试这个:
wget -nd -r -P /save/location/ -A jpeg,jpg,bmp,gif,png http://www.domain.com
并等到它删除所有额外信息
答案 4 :(得分:5)
根据手册页,-P标志为:
-P前缀 --directory前缀=前缀 将目录前缀设置为前缀。目录前缀是 将保存所有其他文件和子目录的目录 到,即检索树的顶部。默认是。 (该 当前目录)。
这意味着它只指定目的地但保存目录树的位置。 它不会将树展平为一个目录。如前所述,-nd标志实际上是这样做的。
@Jon将来描述旗帜的作用是有益的,这样我们才能理解某些东西是如何运作的。
答案 5 :(得分:2)
建议的解决方案非常适合下载图像,如果足以将所有文件保存在您正在使用的目录中。 但是,如果要保存指定目录中的所有图像而不复制整个网站的分层树,请尝试将“cut-dirs”添加到Jon提议的行中。
wget -r -P /save/location -A jpeg,jpg,bmp,gif,png http://www.boia.de --cut-dirs=1 --cut-dirs=2 --cut-dirs=3
在这种情况下,cut-dirs将阻止wget创建子目录,直到网站分层树中的第3级深度,保存您指定的目录中的所有文件。您可以添加更多'cut-dirs'更高如果您正在处理具有深层结构的网站,请使用数字。
答案 6 :(得分:-7)
wget实用程序使用广泛使用的协议(如HTTP,HTTPS和FTP)从万维网(WWW)检索文件。 Wget实用程序是免费提供的包,许可证是GNU GPL许可证。该实用程序可以安装任何类Unix操作系统,包括Windows和MAC OS。它是一个非交互式命令行工具。 Wget的主要特点是它的稳健性。它以这种方式设计,以便在缓慢或不稳定的网络连接中工作。如果网络出现问题,Wget会自动开始下载。还递归下载文件。它将继续尝试,直到完全检索文件。
在linux机器上安装wget sudo apt-get install wget
创建要下载文件的文件夹。 sudo mkdir myimages cd myimages
右键单击网页,例如,如果您想要图像位置,请右键单击图像并复制图像位置。如果有多张图片,请按照以下说明操作:
如果要同时从网络上下载20张图像,则范围从0到19开始。
wget http://joindiaspora.com/img {0..19} .jpg