我正在尝试下载网站www.idea.int的/ publications /文件夹,以包含在USB驱动器上以供离线观看。
我试过了:
wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension
--no-cookies --convert-links --page-requisites http://www.idea.int/publications/
正确地只保存/ publication /和子文件夹。但是我们在这些页面上有从static0.idea.int检索到的图像,这些图像不会下载也不会重新链接,即使我有--page-requisites
标志。
然后我尝试了:
wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension
--no-cookies --convert-links --page-requisites
--span-hosts --domains=idea.int http://offline.idea.int/publications/
希望--span-hosts
允许convert-links
步骤下载和重新链接图像。但是,这会忽略--no-parent
选项,并且基本上会下载整个www.idea.int网站。
有没有办法可以下载/ publications /中的所有HTML页面以及这些页面中包含的所有图像资源(甚至是在另一个域中)并重新链接它们以供离线查看?
答案 0 :(得分:1)
这已经很晚了,但是......
wget -p -k -r -np http://www.idea.int/publications/
...应该是正确的命令。
-p(或--page-requisites)获取显示HTML页面所需的所有图像等。
-k(或--convert-links)使下载的HTML或CSS中的链接指向本地文件。
-r(或--recursive)指定您希望递归下载(下载所有子项)
-np(或--no-parent)阻止它升级到父目录。
看起来你缺少的是-p标志。
注意:上面的一些文字来自wget --help