我正在尝试从this link下载所有图片。我只想从液压部分下载图像,所以我使用--no-parent
并在运行命令时
wget -r --no-parent -e robots=off --user-agent="Mozilla/5.0 (Windows NT 5.1; rv:31.0) Gecko/20100101 Firefox/31.0" -A png http://indiabix.com/civil-engineering/hydraulics/
它只下载index.html。
我在网上搜索了这个问题,Stack Overflow已经有两个问题:
但他们没有帮助。我也开始对后一个问题给予赏金,但我想知道是否有人可以在我的案例中建议一个解决方法?
答案 0 :(得分:0)
非常简单:
小图标("查看答案"等)是锚点(背景图像)的CSS定义的一部分。目前,wget不会解析外部CSS并从那里选择图像。
使用-A png wget甚至会停在第一个文件(.html),因为它不匹配。
我已成功通过
下载所有内容 lwp-rget --hier --nospace http://indiabix.com/civil-engineering/hydraulics/
需要安装lwp CPAN perl软件包:zypper se libwww
答案 1 :(得分:0)
答案取决于知道images文件夹的路径,以便可以将其添加到要包含的目录列表中(不需要--include
参数来获取整个站点。)
wget 'http://indiabix.com/civil-engineering/hydraulics/' --convert-links --adjust-extension --recursive --page-requisites --no-directories --directory-prefix=output --include '/civil-engineering/hydraulics','/_files/images'