应用错误收集

使用Apache Nutch抓取图像

时间：2017-12-03 11:02:27

标签： mongodb apache solr web-crawler nutch

我安装了Apache Nutch 2.3.1和Solr 6.5.1以及MongoDB 3.4.7。在我抓取包含许多图像的网址后，在Solr和mongoDB中不包含任何图像和视频。我还更改了apache nutch中的regex-urlfilter.txt文件并删除了与图像相关的后缀（.png，.jpeg，.gift，...）。之后我更改了suffix-urlfilter.txt文件，并对jpeg，gif，png进行了评论完成后，Apache Nutch不会抓取图像。现在我想知道如何抓取图像并在Solr中看到它？当我读到它时，我明白我应该创建插件。我的印象是否正确？

2 个答案:

答案 0 :(得分：0)

Nutch supports several formats：纯文本，HTML / XHTML + XML，XML，MS Office文件，Adobe PDF，RSS，RTF，MP3。不幸的是，不支持任何类型的图像文件。除此之外，我很好奇，你想在图像文件中索引什么？

答案 1 :(得分：0)

如果我理解你的问题，你想要完成的是从图像中提取所有元数据并仅在Solr中编制索引，对吗？

如果Nutch甚至没有获取您的图像，那么更有可能的是某些URL过滤器将URL取出（检查日志）。您需要描述对不同文件的更改，否则将无法帮助您。

现在，回到最初的问题，如果您只想索引图像URL（以及元数据），那么您需要过滤索引到Solr的内容。不幸的是，Nutch 2.3没有提供（开箱即用）此功能。在Nutch 1.x中，您可以使用mimetype-filter，它允许您根据URL的mime类型指定要索引到Solr / ES的内容。我的建议是使用Nutch 1.x，除非你有充分的理由使用Nutch 2.x.否则，您可以将mimetype-filter插件移植到2.x或编写支持您自己逻辑的IndexingFiler。

请记住，您在Solr中获得的信息仅限于tika可以从图像文件（元数据）中提取的信息，而该图像文件通常不是很好。