Nutch 1.10;有一个默认设置可以将单个TLD上正在抓取的子域数限制为100.有人可以告诉我如何覆盖此默认值吗?
我在nutch-site.xml中尝试了以下操作但没有成功:
<property>
<name>generate.max.per.host</name>
<value>300</value>
</property>enter code here
答案 0 :(得分:1)
Nutch的子域数量没有限制。是什么让你这么想的?你如何发现子域?
如果它们是来自单个页面的链接,那么限制你的是'db.max.outlinks.per.page'(默认为100)。无论子域名如何,这都会限制任何外链