我将内容源指定为内部非共享点网站
e.g。 http://internal.example.com
然而,完全爬网只会抓取网站根目录中的22个页面(有100个),除非我指定“自定义 - 指定页面深度和服务器跃点:”并保留“页面深度”和“限制服务器”啤酒花为无限
然后让爬行成为精神上的!
更新:我正在使用MS Search Server Express 2008
答案 0 :(得分:2)
Wget非常聪明。这是我用来递归快照站点的命令行。
wget -r -k -K --no-parent http://internal.example.com/
答案 1 :(得分:0)
您可能希望准确指定用于执行此爬网的工具/技术。此外,你有没有尝试过无限制的东西,结果是什么?