我是Heritrix的新手并使用heritirx 1.14。 我不知道如何做以下事情: 1)将下载链接的BFS深度绑定到特定数字,例如3。 2)将下载的类型限制为html和文本。
我非常感谢你的关注。
答案 0 :(得分:0)
首先,我可能会将Heritrix 2(我使用更多)的概念与Heritrix 1(我已经很久没有使用过)混淆了。对不起,如果我这样做。
深度是边界的范围设置。 BroadScope将具有深度限制设置。或者你可以使用DecidingScope。
至于要下载的文件类型,我认为应该在您尝试用于存档已爬网文件的MirrorWriterProcessor上设置(它是2.x中的DecideRules序列)。
顺便说一句,wget / httrack更容易配置这类任务,至少如果您只需要拥有相关网页的最新副本。
答案 1 :(得分:0)