我使用Apache Nutch 2.1抓取了一些网站。
抓取时我在很多页面上看到以下消息: 恩。跳过http://videos.arte.tv/fr/videos/x-enius--7453284.html;不同的批次ID(null)
导致此错误的原因是什么?这是解析阶段... 如何解决此问题,我使用HBase存储页面。
我在regex-urlfilter.txt中的网址看起来像
但我也试过同样的效果
编辑:它被邮件列表的维护者添加到跟踪中,如bug,你可以在这里阅读http://lucene.472066.n3.nabble.com/Nutch-2-1-different-batch-id-null-td4040592.html#a4059636
答案 0 :(得分:0)
我认为,这个消息不是问题。 batch_id未分配给所有url。因此,如果batch_id为null,则跳过url。当batch_id被绑定为url时生成url。
有一个类似的问题here。