在nutch 1.3中重新抓取网址

时间:2011-10-24 06:55:03

标签: nutch web-crawler

我设置re_crawler每天获取一个网站。但它取了这个网站3次。 我应该在荷兰设置什么属性?感谢。

1 个答案:

答案 0 :(得分:3)

我认为你在过去几个月里已经找到了自己的解决方案,但这是社区的答案。 nutch-default.xml定义了3个属性:

<property>
 <name>db.default.fetch.interval</name>
 <value>30</value>
 <description>(DEPRECATED) The default number of days between re-fetches of a page.
 </description>
</property>

<property>
 <name>db.fetch.interval.default</name>
 <value>2592000</value>
 <description>The default number of seconds between re-fetches of a page (30 days).
 </description>
</property>

<property>
 <name>db.fetch.interval.max</name>
 <value>7776000</value>
 <description>The maximum number of seconds between re-fetches of a page
 (90 days). After this period every page in the db will be re-tried, no
 matter what is its status.
</description>

可以在nutch-site.xml中覆盖。