Wget和引用的网址

时间:2018-01-08 16:51:38

标签: linux web wget

目前,我正在努力使用 Wget 镜像网站。 浏览网页我发布了以下命令来镜像一个完整的网站:

wget --mirror --convert-links --adjust-extension --backup-converted --page-requisites -e robots=off http://www.example.com

正如所料,在运行命令后,有一个名为 www.example.com 的文件夹,其中包含所有下载的文件。但是,缺少一些背景图像。通过文件和日志挖掘,我发现 wget 似乎与引用的图片网址有问题。

网站使用以下CSS来包含背景图片:

<div ... style="background-image: url("/path/to/image") ;..." ... />

收集页面必需品 wget 解析URL并尝试下载文件,

http://www.example.com/"/path/to/image"

显然因错误404而失败:

--2018-01-08 18:04:00-- https://www.example.com/&quot;/path/to/image&quot;
Reusing existing connection to www.example.com:443.
HTTP request sent, awaiting response... 404 Not Found
2018-01-08 18:04:00 ERROR 404: Not Found

不幸的是,出于隐私原因,我无法发布原始域名。

我已经尝试在网络上找到解决方案,但我找不到合适的搜索关键字,所以作为最后的选择,我必须向您寻求帮助。

有没有办法告诉 Wget 忽略网址中的引号?

0 个答案:

没有答案