生成用于获取的db_gone URL

时间:2011-07-08 07:29:24

标签: nutch

在我的抓取工具系统中,我将抓取间隔设置为30天。我最初将我的用户代理设置为“....”,然后许多网址被拒绝。但在将我的用户代理更改为适当的名称后,我想获取最初被拒绝的网址。 但问题是那些具有db_gone状态的URL将具有45天的重试间隔。因此,生成器不会选择那个。在这种情况下,我如何获取具有db_gone状态的URL?

默认情况下,nutch是否有任何选项可以单独抓取这些db_gone网址?

或者我是否需要编写一个单独的map-reduce程序来收集这些网址并使用freegen为它们生成细分?

1 个答案:

答案 0 :(得分:0)

您只需要使用不同的重新获取间隔配置nutch-site.xml。

<强> ADDITION

<property> <name>db.fetch.interval.max</name>
<value>7776000</value>
<description>The maximum number of seconds between re-fetches of a page (90 days). After this period every page in the db will be re-tried, no matter what is its status. </description>
</property>