应用错误收集

目的-希望从网站中提取所有html链接以创建Google支持的站点地图xml。

我的解决方案-使用以下命令提取链接

wget --spider --recursive --level = inf --no-verbose --output-file = linklist.txt http://www.myexample.com/home.html

这需要很长时间才能生成html链接的完整列表（仍然无法检查多少）。 30多个小时后，我几次中断了该过程。在30小时内，它仅给我linklist.txt中的约5万个链接。我想要一些选择来加快这一步。

2nd-它也会在我的工作目录中下载目录为www.myexample.com的文件，这对我没有用。有没有办法抑制这种情况。

感谢您提供任何快速帮助。我是新手，请原谅错误。