web-crawler - 限制Heritrix的深度

时间：2010-06-20 12:05:55

标签： web-crawler

我是Heritrix的新手并使用heritirx 1.14。我不知道如何做以下事情： 1）将下载链接的BFS深度绑定到特定数字，例如3。 2）将下载的类型限制为html和文本。

我非常感谢你的关注。

答案 0 :(得分：0)

首先，我可能会将Heritrix 2（我使用更多）的概念与Heritrix 1（我已经很久没有使用过）混淆了。对不起，如果我这样做。

深度是边界的范围设置。 BroadScope将具有深度限制设置。或者你可以使用DecidingScope。

至于要下载的文件类型，我认为应该在您尝试用于存档已爬网文件的MirrorWriterProcessor上设置（它是2.x中的DecideRules序列）。

顺便说一句，wget / httrack更容易配置这类任务，至少如果您只需要拥有相关网页的最新副本。

答案 1 :(得分：0)

1）将下载链接的BFS深度绑定到特定数字，例如3。

将max-link-hops设置为3.请参阅 6.3.2。来自manual。

的范围设置

2）将下载的类型限制为html和文本。

在ContentTypeRegExpFilter中将其配置为仅匹配text/plain和text/html。见第6.2.2.2节。从manual提供过滤器。