我认为这个问题相对容易找到解决方案,但由于某种原因,我尝试过的答案不起作用。
我正在尝试使用wget并使用以下命令下载/镜像我的XML站点地图上的所有链接:
wget --quiet http://mytestdomain.com/sitemap-pt-sale-2015-02.xml --output-document - | egrep -o "http://mytestdomain\.com[^<]+" | wget --spider -i - --wait 0
但由于某种原因,我只看到一堆
Spider mode enabled. Check if remote file exists.
--2015-02-16 12:49:33-- http://mytestdomain.com/sale/post1/
Reusing existing connection to mytestdomain.com:80.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Remote file exists and could contain further links,
but recursion is disabled -- not retrieving.
我不是CLI专业版,所以我不知道为什么它实际上没有将实际页面下载到static.html文件中。
所以我的问题是,如何修改上面的命令,以便将XML中的所有链接下载到static.html文件中?
由于
答案 0 :(得分:2)
问题是你正在使用
-- spider
模式。
从手册页:
- 蜘蛛
当使用此选项调用时,Wget将表现为Web蜘蛛,其>&gt;意味着它不会下载页面,只需检查它们是否在那里。
如果您想保证下载的文件的扩展名为.html,请使用 -E :
wget -E -i - --wait 0