使wget绕过index.html文件

时间:2014-08-18 07:19:10

标签: wget

我正在尝试从this link下载所有图片。我只想从液压部分下载图像,所以我使用--no-parent并在运行命令时

wget -r --no-parent -e robots=off --user-agent="Mozilla/5.0 (Windows NT 5.1; rv:31.0) Gecko/20100101 Firefox/31.0" -A png http://indiabix.com/civil-engineering/hydraulics/

它只下载index.html。

我在网上搜索了这个问题,Stack Overflow已经有两个问题:

但他们没有帮助。我也开始对后一个问题给予赏金,但我想知道是否有人可以在我的案例中建议一个解决方法?

2 个答案:

答案 0 :(得分:0)

非常简单:

  • 您提供的链接上没有图片。

小图标("查看答案"等)是锚点(背景图像)的CSS定义的一部分。目前,wget不会解析外部CSS并从那里选择图像。

使用-A png wget甚至会停在第一个文件(.html),因为它不匹配。

我已成功通过

下载所有内容
   lwp-rget --hier --nospace http://indiabix.com/civil-engineering/hydraulics/

需要安装lwp CPAN perl软件包:zypper se libwww

答案 1 :(得分:0)

答案取决于知道images文件夹的路径,以便可以将其添加到要包含的目录列表中(不需要--include参数来获取整个站点。)

wget 'http://indiabix.com/civil-engineering/hydraulics/' --convert-links --adjust-extension --recursive --page-requisites --no-directories --directory-prefix=output --include '/civil-engineering/hydraulics','/_files/images'