我可以让wget只检索一个文件夹(和它的子项),还可以保存和重新链接外部图像吗?

时间:2013-01-17 13:00:16

标签: wget

我正在尝试下载网站www.idea.int的/ publications /文件夹,以包含在USB驱动器上以供离线观看。

我试过了:

wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension 
 --no-cookies --convert-links --page-requisites http://www.idea.int/publications/ 

正确地只保存/ publication /和子文件夹。但是我们在这些页面上有从static0.idea.int检索到的图像,这些图像不会下载也不会重新链接,即使我有--page-requisites标志。

然后我尝试了:

wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension 
   --no-cookies --convert-links --page-requisites   
   --span-hosts --domains=idea.int http://offline.idea.int/publications/

希望--span-hosts允许convert-links步骤下载和重新链接图像。但是,这会忽略--no-parent选项,并且基本上会下载整个www.idea.int网站。

有没有办法可以下载/ publications /中的所有HTML页面以及这些页面中包含的所有图像资源(甚至是在另一个域中)并重新链接它们以供离线查看?

1 个答案:

答案 0 :(得分:1)

这已经很晚了,但是......

wget -p -k -r -np http://www.idea.int/publications/

...应该是正确的命令。

-p(或--page-requisites)获取显示HTML页面所需的所有图像等。

-k(或--convert-links)使下载的HTML或CSS中的链接指向本地文件。

-r(或--recursive)指定您希望递归下载(下载所有子项)

-np(或--no-parent)阻止它升级到父目录。

看起来你缺少的是-p标志。

注意:上面的一些文字来自wget --help