wget命令需要很长时间才能生成站点地图网址链接

时间:2019-03-05 17:00:59

标签: shell web-crawler wget sitemap

目的-希望从网站中提取所有html链接以创建Google支持的站点地图xml。

我的解决方案-使用以下命令提取链接

wget --spider --recursive --level = inf --no-verbose --output-file = linklist.txt http://www.myexample.com/home.html

这需要很长时间才能生成html链接的完整列表(仍然无法检查多少)。 30多个小时后,我几次中断了该过程。在30小时内,它仅给我linklist.txt中的约5万个链接。我想要一些选择来加快这一步。

2nd-它也会在我的工作目录中下载目录为www.myexample.com的文件,这对我没有用。有没有办法抑制这种情况。

感谢您提供任何快速帮助。我是新手,请原谅错误。

0 个答案:

没有答案