目的-希望从网站中提取所有html链接以创建Google支持的站点地图xml。
我的解决方案-使用以下命令提取链接
wget --spider --recursive --level = inf --no-verbose --output-file = linklist.txt http://www.myexample.com/home.html
这需要很长时间才能生成html链接的完整列表(仍然无法检查多少)。 30多个小时后,我几次中断了该过程。在30小时内,它仅给我linklist.txt中的约5万个链接。我想要一些选择来加快这一步。
2nd-它也会在我的工作目录中下载目录为www.myexample.com的文件,这对我没有用。有没有办法抑制这种情况。
感谢您提供任何快速帮助。我是新手,请原谅错误。