蜘蛛网站,除了wget之外最快的方法

时间:2015-08-30 04:11:35

标签: wget

我使用wget --spider -l4 -r --delete-after选项。 我意识到爬行率相对较慢。

我的页面包含该类别的第2,3,4,5页(链接来自第1页)。

如果我只想点击网站页面一次,但不能检索html,我应该用什么来最快地完成它。

一般情况下,能够触摸所有内部链接,使其加载一次(生成我的缓存)。我不需要抓取HTML。任何想法如何以最快的方式做到这一点。该网站都是相互关联的

Main site
 > Category
   > Different Posts of Category
      > Pages of Post

我希望能够以最快的方式抓取网站本身的所有链接(不需要下载任何内容),就像谷歌蜘蛛蜘蛛一样。

感谢

1 个答案:

答案 0 :(得分:1)

我建议您尝试mget http://rockdaboot.github.io/mget/

mgetwget - 工作相似,但多线程。因此,它可以利用并行连接来加快速度。它还具有更复杂的压缩支持。如果你开始大量使用它,我认为你会发现它通常只能更快地运行。