Nutch:db_unfetched urls状态的标准

时间:2012-02-03 08:42:31

标签: solr nutch

在哪些情况下url进入db_unfetched阶段。 url不满意crawlurlfilter.txt也会进入db_unfetched状态。

1 个答案:

答案 0 :(得分:3)

以下网址标记为db _ unfetched

  1. 新注入的网址,
  2. 未提取的网址
  3. 由于某些异常而无法获取的网址
  4. crawlurlfilter.txt不允许网址有资格获取。因此,网址将保持db_unfetched