Question

我正在尝试下载网站www.idea.int的/ publications /文件夹，以包含在USB驱动器上以供离线观看。

我试过了：

wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension 
 --no-cookies --convert-links --page-requisites http://www.idea.int/publications/

正确地只保存/ publication /和子文件夹。但是我们在这些页面上有从static0.idea.int检索到的图像，这些图像不会下载也不会重新链接，即使我有--page-requisites标志。

然后我尝试了：

wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension 
   --no-cookies --convert-links --page-requisites   
   --span-hosts --domains=idea.int http://offline.idea.int/publications/

希望--span-hosts允许convert-links步骤下载和重新链接图像。但是，这会忽略--no-parent选项，并且基本上会下载整个www.idea.int网站。

有没有办法可以下载/ publications /中的所有HTML页面以及这些页面中包含的所有图像资源（甚至是在另一个域中）并重新链接它们以供离线查看？

Answer 1

这已经很晚了，但是......

wget -p -k -r -np http://www.idea.int/publications/

...应该是正确的命令。

-p（或--page-requisites）获取显示HTML页面所需的所有图像等。

-k（或--convert-links）使下载的HTML或CSS中的链接指向本地文件。

-r（或--recursive）指定您希望递归下载（下载所有子项）

-np（或--no-parent）阻止它升级到父目录。

看起来你缺少的是-p标志。

注意：上面的一些文字来自wget --help

我可以让wget只检索一个文件夹（和它的子项），还可以保存和重新链接外部图像吗？

1 个答案: