Apache Nutch 2.1 - 跳过http://someurl.com/something.html;不同的批次ID(null)

时间:2013-04-24 15:22:16

标签: java apache nutch

我使用Apache Nutch 2.1抓取了一些网站。

抓取时我在很多页面上看到以下消息: 恩。跳过http://videos.arte.tv/fr/videos/x-enius--7453284.html;不同的批次ID(null)

导致此错误的原因是什么?这是解析阶段... 如何解决此问题,我使用HBase存储页面。

我在regex-urlfilter.txt中的网址看起来像

  • + ^ HTTP://([A-Z0-9] *)* videos.arte.tv /
  • + ^ HTTP://([A-Z0-9] *)* rbb-online.de /

但我也试过同样的效果

编辑:它被邮件列表的维护者添加到跟踪中,如bug,你可以在这里阅读http://lucene.472066.n3.nabble.com/Nutch-2-1-different-batch-id-null-td4040592.html#a4059636

1 个答案:

答案 0 :(得分:0)

我认为,这个消息不是问题。 batch_id未分配给所有u​​rl。因此,如果batch_id为null,则跳过url。当batch_id被绑定为url时生成url。

有一个类似的问题here