标签: solr elasticsearch nutch
我对使用Nutch的理解是将网页下载到本地文件系统,以便ElasticSearch / Solr可以将其编入索引。
如果我想索引本地文件系统,因为所有文件都在本地文件系统中,我还需要使用Nutch吗?
感谢。
答案 0 :(得分:3)
如果文件已存在,您可以让Nutch抓取文件系统。您需要激活protocol-file插件。
protocol-file
或者Behemoth也是一个不错的选择。查看其Apache Tika模块,从原始文档中提取文本和元数据,以及solr模块。
答案 1 :(得分:1)
您可以使用数据导入处理程序。看到 https://wiki.apache.org/solr/DataImportHandler#FileListEntityProcessor