Apache Nutch 2.1不同批处理id(null)

时间:2013-02-12 08:33:02

标签: apache nutch web-crawler

我使用Apache Nutch 2.1抓取了一些网站。

抓取时我在很多页面上看到以下消息:
恩。跳过http://www.domainname.com/news/subcategory/111111/index.html;不同的批次ID(null)。

导致此错误的原因是什么? 如何解决此问题,因为具有不同批处理ID(null)的页面不存储在数据库中。

我抓取的网站是基于drupal的,但我已尝试过其他许多非drupal网站。

1 个答案:

答案 0 :(得分:1)

我认为,这个消息不是问题。 batch_id未分配给所有u​​rl。因此,如果batch_id为null,则跳过url。当batch_id被绑定为url时生成url。