我是Nutch的新手,但我知道Nutch使用Lucene进行索引,只能理解文本格式。
Nutch有许多插件,用于抓取特定格式的文档。
我的疑问是:Nutch插件系统实际上是怎样的?
我在nutch
看到了团队维基页面我想了解一些信息,比如Nutch实际上是如何与Lucene合作的。
答案 0 :(得分:1)
所有Lucene都提供了一种方法,可以将“Documents”添加到结构化索引中,并使查询针对该索引执行。
Nutch爬虫(我认为你的意思是nutch)只是提供了一种简单的方法来获取非结构化数据(即网站)进入索引。就像你可以使用Solr轻松地将xml数据推送到lucene索引一样。
Nutch插件只是提供了一个钩子,你可以把客户逻辑。例如,“parse-pdf”可以将二进制PDF文件转换为这些“lucene文档”之一。基本上它只是使用一个API来读取PDF文档(pdfbox)来提取文本(这类似于“parse-html”所做的,因为html有很多不是文本的部分,因为例如所有html标签)。
因此,关于您对二进制格式的关注,解析并不困难,只是难以获得有用的东西。例如,我们可以编写一个“解析图像”插件,可以提取有关图像的大量信息(即名称,格式,大小),只是解析图片中的“面部”或“狗”很困难。