Nutch 1.10 - 不会在同一个TLD上抓取100多个子域名

时间:2016-03-31 13:21:48

标签: web-crawler nutch

Nutch 1.10;有一个默认设置可以将单个TLD上正在抓取的子域数限制为100.有人可以告诉我如何覆盖此默认值吗?

我在nutch-site.xml中尝试了以下操作但没有成功:

<property>
  <name>generate.max.per.host</name>
  <value>300</value>
</property>enter code here

1 个答案:

答案 0 :(得分:1)

Nutch的子域数量没有限制。是什么让你这么想的?你如何发现子域?

如果它们是来自单个页面的链接,那么限制你的是'db.max.outlinks.per.page'(默认为100)。无论子域名如何,这都会限制任何外链