Question

我使用wget --spider -l4 -r --delete-after选项。我意识到爬行率相对较慢。

我的页面包含该类别的第2,3,4,5页（链接来自第1页）。

如果我只想点击网站页面一次，但不能检索html，我应该用什么来最快地完成它。

一般情况下，能够触摸所有内部链接，使其加载一次（生成我的缓存）。我不需要抓取HTML。任何想法如何以最快的方式做到这一点。该网站都是相互关联的

Main site
 > Category
   > Different Posts of Category
      > Pages of Post

我希望能够以最快的方式抓取网站本身的所有链接（不需要下载任何内容），就像谷歌蜘蛛蜘蛛一样。

感谢

Answer 1

mget是wget - 工作相似，但多线程。因此，它可以利用并行连接来加快速度。它还具有更复杂的压缩支持。如果你开始大量使用它，我认为你会发现它通常只能更快地运行。