用nutch索引所有内部网

时间:2012-02-07 10:06:13

标签: nutch intranet

我使用Nutch,我想索引一个内联网,但是如何确保内联网上的所有内容都被编入索引?

感谢。

1 个答案:

答案 0 :(得分:0)

如果您知道内部网的所有网址,那么请写一个robots.txt(或包含所有网址的等效网页,并将抓取工具指向该网页)。

如果您不这样做,那么您将永远不会安全地抓取所有网址,因为您无法在抓取后对其进行验证。

在最后一种情况下,最好的机会是在最大深度进行爬行。

此致