合并这些wget& egrep命令用于递归下载站点地图

时间:2017-02-02 02:58:10

标签: grep cygwin wget

我正试图找到一种方法来使这些工作在一起。我可以使用Wget for Windows成功运行它:

wget --html-extension -r http://www.sitename.com

这将下载我的服务器上的每个文件,该文件是从根域链接的目录。我宁愿只下载我的站点地图中的页面。为此,我发现了以下使用CygWin的技巧:

wget --quiet https://www.sitename.com/sitemap.xml --output-document - | egrep -o
"http://www\.sitename\.com[^<]+" | wget --spider -i - --wait 1

然而,这只是检查页面是否存在,而不是像先前的wget命令那样将它们下载为静态HTML文件。

有没有办法合并这些并将站点地图页面下载为本地html文件?

1 个答案:

答案 0 :(得分:0)

如果查看wget的手册页,您会看到--spider条目如下:

--spider
       When invoked with this option, Wget will behave as a Web spider, which means that it will not download the pages, just check that they are there.

实际下载文件所需要做的就是从命令中删除--spider

wget --quiet https://www.sitename.com/sitemap.xml --output-document - | egrep -o \
"https?://www\.sitename\.com[^<]+" | wget -i - --wait 1