如何使Heritrix继续在找到的域上进行爬网过程,而不是在种子列表中

时间:2011-10-02 18:14:48

标签: web-crawler

如何让Heritrix继续对找到的域名进行抓取并且不在种子列表中? 我的意思是让它在种子列表中的所有域上爬行后不要停止。并继续为爬网过程中找到的每个链接抓取进程。

3 个答案:

答案 0 :(得分:1)

自从我上次使用Heritrix以来已经有一段时间了,但如果内存对我有好处,那么您需要更改设置/配置文件中的max-link-hops。你做出的max-link-hops越大,Heritrix从您定义的种子中获得的步骤(“跳跃”)就越多。

答案 1 :(得分:1)

默认情况下,Heritrix配置为仅抓取种子列表中的域上的URL。一些其他材料通常也会被抓取,因为其他地方托管的嵌入材料也会被抓取。

如果您希望Heritrix抓取它遇到的任何内容,您需要修改范围。

范围由一系列决策规则组成。每个规则都可以接受,拒绝或传递URL。 ACCEPT或REJECT的最后一条规则获胜。通常,列表中的第一个规则是全部拒绝全部,然后是SurtPrefixDecideRule,它在与SURT列表匹配的所有URL中进行规则。 SURT列表通常使用种子列表构建。

然而,您可以手动配置SURT列表指定您自己的,或者(如果您真的想要所有内容),您可以简单地删除它和拒绝所有规则,并将接受所有决定规则添加到顶部。

More on configuring Heritrix 3 scoping.

答案 2 :(得分:0)

您还可以将surt决策规则“NotonDomains”设置为true。这将抓取所有不在种子列表中的域。