标签: nutch intranet
我使用Nutch,我想索引一个内联网,但是如何确保内联网上的所有内容都被编入索引?
感谢。
答案 0 :(得分:0)
如果您知道内部网的所有网址,那么请写一个robots.txt(或包含所有网址的等效网页,并将抓取工具指向该网页)。
如果您不这样做,那么您将永远不会安全地抓取所有网址,因为您无法在抓取后对其进行验证。
在最后一种情况下,最好的机会是在最大深度进行爬行。
此致