Nutch Fetch Scheduler重新抓取网页

时间:2014-03-05 11:51:24

标签: nutch

我已按照此article配置抓取时间表以重新抓取网站,但似乎无效。 在nutch-site.xml中添加了以下属性以计划每10分钟重新抓取一次,因为我想重新抓取特定网站以获取更改的网页.-

<property>
  <name>db.fetch.schedule.class</name>
  <value>org.apache.nutch.crawl.DefaultFetchSchedule</value>
  <description>The implementation of fetch schedule. DefaultFetchSchedule simply 
  adds the original fetchInterval to the last fetch time, regardless of 
  page changes.</description>
</property>
<property>
  <name>db.fetch.interval.default</name>
  <value>600</value>
  <description>The default number of seconds between re-fetches of a page (30 days). 
  </description>
</property>

我的问题是每10分钟后会自动重新开始重新开始,还是需要进行任何其他配置,还是必须以某种方式触发?

1 个答案:

答案 0 :(得分:1)

您应该创建cronjob以自动抓取。 db.fetch.interval.default只告诉nutch在上次爬网后是否应该抓取此页面。