我使用Apache Nutch 2.1抓取了一些网站。
抓取时我在很多页面上看到以下消息:
恩。跳过http://www.domainname.com/news/subcategory/111111/index.html;不同的批次ID(null)。
导致此错误的原因是什么? 如何解决此问题,因为具有不同批处理ID(null)的页面不存储在数据库中。
我抓取的网站是基于drupal的,但我已尝试过其他许多非drupal网站。
答案 0 :(得分:1)
我认为,这个消息不是问题。 batch_id未分配给所有url。因此,如果batch_id为null,则跳过url。当batch_id被绑定为url时生成url。