web-crawler - 如何使Heritrix继续在找到的域上进行爬网过程，而不是在种子列表中

时间：2011-10-02 18:14:48

标签： web-crawler

如何让Heritrix继续对找到的域名进行抓取并且不在种子列表中？我的意思是让它在种子列表中的所有域上爬行后不要停止。并继续为爬网过程中找到的每个链接抓取进程。

答案 0 :(得分：1)

自从我上次使用Heritrix以来已经有一段时间了，但如果内存对我有好处，那么您需要更改设置/配置文件中的max-link-hops。你做出的max-link-hops越大，Heritrix从您定义的种子中获得的步骤（“跳跃”）就越多。

答案 1 :(得分：1)

默认情况下，Heritrix配置为仅抓取种子列表中的域上的URL。一些其他材料通常也会被抓取，因为其他地方托管的嵌入材料也会被抓取。

如果您希望Heritrix抓取它遇到的任何内容，您需要修改范围。

范围由一系列决策规则组成。每个规则都可以接受，拒绝或传递URL。 ACCEPT或REJECT的最后一条规则获胜。通常，列表中的第一个规则是全部拒绝全部，然后是SurtPrefixDecideRule，它在与SURT列表匹配的所有URL中进行规则。 SURT列表通常使用种子列表构建。

然而，您可以手动配置SURT列表指定您自己的，或者（如果您真的想要所有内容），您可以简单地删除它和拒绝所有规则，并将接受所有决定规则添加到顶部。