我正在为文档目录(文件类型,如:MS Word,PDF,.txt,PowerPoint等)设置搜索系统。
文档目录存储在我的网络本地。
我已在我的计算机上启动并运行Apache Solr(管理员窗格可查看并可从localhost端口8983访问)。
我现在需要索引目录中文档的内容和标题,并通过我的Solr服务器进行搜索。
我下一步去哪儿? ---更具体地说---
答案 0 :(得分:2)
您可以使用Solr Cell(以前称为ExtractingRequestHandler)
它建立在Apache Tika Project之上。
关于Solr Cell:
关键概念
使用Solr Cell框架时,保留它是有帮助的 请记住:
- Tika将自动尝试确定输入文档类型(Word,PDF,HTML)并适当地提取内容。如果 您喜欢,您可以使用显式指定Tika的MIME类型 stream.type参数。
- Tika通过生成一个XHTML流来提供给SAX ContentHandler。 SAX是为许多实现的通用接口 不同的XML解析器。有关更多信息,请参见
http://www.saxproject.org/quickstart.html。- Solr然后回应Tika的SAX事件并创建要索引的字段。
- Tika根据DublinCore等规范生成标题,主题和作者等元数据。见
{/ 3}}支持的文件类型。- Tika将所有提取的文本添加到内容字段中。该字段定义为"存储"在schema.xml中。它也被复制到文本中 带有copyField规则的字段。
- 您可以将Tika的元数据字段映射到Solr字段。你也可以提升这些领域。
- 您可以传入字段值的文字。文字将覆盖Tika解析的值,包括Tika元数据对象中的字段 Tika内容领域,以及任何"捕获的内容"字段。
- 您可以将XPath表达式应用于Tika XHTML以限制生成的内容。
http://tika.apache.org/1.5/formats.html上的wiki页面提供了教程和配置信息。