我正在尝试用Nutch检索图像。该插件只是搜索所需的图像并检索其网址。我最后得到的内容包含太多重复的网址。它检索到43000个网址,其中39000个是重复的。 这是正常的还是我写的代码中可能有一些错误(我不认为是这种情况),或者其他明智的问题与Nutch本身有关?
答案 0 :(得分:2)
可能是多次引用相同的图像?,在这种情况下,您的结果可能完全正常,我想在给定/已知的URL集上运行测试示例可以为您提供更好的答案,限制您的爬网只有种子文件上的URL运行测试并检查正在爬行的图像。你的抓取大小是多少?您是否正在获取已经获取的页面或关注尚未访问过的页面?你是否忽略像图标这样的小图像?
请注意,通常在网站上会反复重复使用大量图片资源,特别是在网站不是
的情况下