我正试图找到一种方法来使这些工作在一起。我可以使用Wget for Windows成功运行它:
wget --html-extension -r http://www.sitename.com
这将下载我的服务器上的每个文件,该文件是从根域链接的目录。我宁愿只下载我的站点地图中的页面。为此,我发现了以下使用CygWin的技巧:
wget --quiet https://www.sitename.com/sitemap.xml --output-document - | egrep -o
"http://www\.sitename\.com[^<]+" | wget --spider -i - --wait 1
然而,这只是检查页面是否存在,而不是像先前的wget命令那样将它们下载为静态HTML文件。
有没有办法合并这些并将站点地图页面下载为本地html文件?
答案 0 :(得分:0)
如果查看wget
的手册页,您会看到--spider
条目如下:
--spider
When invoked with this option, Wget will behave as a Web spider, which means that it will not download the pages, just check that they are there.
实际下载文件所需要做的就是从命令中删除--spider
。
wget --quiet https://www.sitename.com/sitemap.xml --output-document - | egrep -o \
"https?://www\.sitename\.com[^<]+" | wget -i - --wait 1