Nutch检索了太多重复的图像

时间:2017-05-17 06:40:08

标签: image duplicates web-crawler webpage nutch

我正在尝试用Nutch检索图像。该插件只是搜索所需的图像并检索其网址。我最后得到的内容包含太多重复的网址。它检索到43000个网址,其中39000个是重复的。 这是正常的还是我写的代码中可能有一些错误(我不认为是这种情况),或者其他明智的问题与Nutch本身有关?

1 个答案:

答案 0 :(得分:2)

可能是多次引用相同的图像?,在这种情况下,您的结果可能完全正常,我想在给定/已知的URL集上运行测试示例可以为您提供更好的答案,限制您的爬网只有种子文件上的URL运行测试并检查正在爬行的图像。你的抓取大小是多少?您是否正在获取已经获取的页面或关注尚未访问过的页面?你是否忽略像图标这样的小图像?

请注意,通常在网站上会反复重复使用大量图片资源,特别是在网站不是

的情况下