限制Heritrix的深度

时间:2010-06-20 12:05:55

标签: web-crawler

我是Heritrix的新手并使用heritirx 1.14。 我不知道如何做以下事情:         1)将下载链接的BFS深度绑定到特定数字,例如3。         2)将下载的类型限制为html和文本。

我非常感谢你的关注。

2 个答案:

答案 0 :(得分:0)

首先,我可能会将Heritrix 2(我使用更多)的概念与Heritrix 1(我已经很久没有使用过)混淆了。对不起,如果我这样做。

深度是边界的范围设置。 BroadScope将具有深度限制设置。或者你可以使用DecidingScope。

至于要下载的文件类型,我认为应该在您尝试用于存档已爬网文件的MirrorWriterProcessor上设置(它是2.x中的DecideRules序列)。

顺便说一句,wget / httrack更容易配置这类任务,至少如果您只需要拥有相关网页的最新副本。

答案 1 :(得分:0)

  

1)将下载链接的BFS深度绑定到特定数字,例如3。

max-link-hops设置为3.请参阅 6.3.2。来自manual

的范围设置
  

2)将下载的类型限制为html和文本。

在ContentTypeRegExpFilter中将其配置为仅匹配text/plaintext/html。见第6.2.2.2节。从manual提供过滤器