应用错误收集

所有Lucene都提供了一种方法，可以将“Documents”添加到结构化索引中，并使查询针对该索引执行。

Nutch爬虫（我认为你的意思是nutch）只是提供了一种简单的方法来获取非结构化数据（即网站）进入索引。就像你可以使用Solr轻松地将xml数据推送到lucene索引一样。

Nutch插件只是提供了一个钩子，你可以把客户逻辑。例如，“parse-pdf”可以将二进制PDF文件转换为这些“lucene文档”之一。基本上它只是使用一个API来读取PDF文档（pdfbox）来提取文本（这类似于“parse-html”所做的，因为html有很多不是文本的部分，因为例如所有html标签）。

因此，关于您对二进制格式的关注，解析并不困难，只是难以获得有用的东西。例如，我们可以编写一个“解析图像”插件，可以提取有关图像的大量信息（即名称，格式，大小），只是解析图片中的“面部”或“狗”很困难。

Nutch的插件系统如何工作？

1 个答案: