我使用wget --spider -l4 -r --delete-after
选项。
我意识到爬行率相对较慢。
我的页面包含该类别的第2,3,4,5页(链接来自第1页)。
如果我只想点击网站页面一次,但不能检索html,我应该用什么来最快地完成它。
一般情况下,能够触摸所有内部链接,使其加载一次(生成我的缓存)。我不需要抓取HTML。任何想法如何以最快的方式做到这一点。该网站都是相互关联的
Main site
> Category
> Different Posts of Category
> Pages of Post
我希望能够以最快的方式抓取网站本身的所有链接(不需要下载任何内容),就像谷歌蜘蛛蜘蛛一样。
感谢
答案 0 :(得分:1)
我建议您尝试mget
http://rockdaboot.github.io/mget/
mget
是wget
- 工作相似,但多线程。因此,它可以利用并行连接来加快速度。它还具有更复杂的压缩支持。如果你开始大量使用它,我认为你会发现它通常只能更快地运行。