使用Apache Nutch抓取图像

时间:2017-12-03 11:02:27

标签: mongodb apache solr web-crawler nutch

我安装了Apache Nutch 2.3.1和Solr 6.5.1以及MongoDB 3.4.7。 在我抓取包含许多图像的网址后,在Solr和mongoDB中不包含任何图像和视频。 我还更改了apache nutch中的regex-urlfilter.txt文件并删除了与图像相关的后缀(.png,.jpeg,.gift,...)。 之后我更改了suffix-urlfilter.txt文件,并对jpeg,gif,png进行了评论 完成后,Apache Nutch不会抓取图像。 现在我想知道如何抓取图像并在Solr中看到它? 当我读到它时,我明白我应该创建插件。我的印象是否正确?

2 个答案:

答案 0 :(得分:0)

Nutch supports several formats:纯文本,HTML / XHTML + XML,XML,MS Office文件,Adobe PDF,RSS,RTF,MP3。不幸的是,不支持任何类型的图像文件。除此之外,我很好奇,你想在图像文件中索引什么?

答案 1 :(得分:0)

如果我理解你的问题,你想要完成的是从图像中提取所有元数据并仅在Solr中编制索引,对吗?

如果Nutch甚至没有获取您的图像,那么更有可能的是某些URL过滤器将URL取出(检查日志)。您需要描述对不同文件的更改,否则将无法帮助您。

现在,回到最初的问题,如果您只想索引图像URL(以及元数据),那么您需要过滤索引到Solr的内容。不幸的是,Nutch 2.3没有提供(开箱即用)此功能。在Nutch 1.x中,您可以使用mimetype-filter,它允许您根据URL的mime类型指定要索引到Solr / ES的内容。我的建议是使用Nutch 1.x,除非你有充分的理由使用Nutch 2.x.否则,您可以将mimetype-filter插件移植到2.x或编写支持您自己逻辑的IndexingFiler

  

请记住,您在Solr中获得的信息仅限于tika可以从图像文件(元数据)中提取的信息,而该图像文件通常不是很好。