将Solr(4.8.1)指向目录(Windows 7)

时间:2014-06-13 20:55:08

标签: apache solr indexing elasticsearch information-retrieval

我正在为文档目录(文件类型,如:MS Word,PDF,.txt,PowerPoint等)设置搜索系统。

文档目录存储在我的网络本地。

我已在我的计算机上启动并运行Apache Solr(管理员窗格可查看并可从localhost端口8983访问)。

我现在需要索引目录中文档的内容和标题,并通过我的Solr服务器进行搜索。

我下一步去哪儿? ---更具体地说---

  • 我需要集成一个开源索引技术,还是Solr可以自己索引文档?
  • 如何告诉Solr专门在此目录中搜索? (要么 通常,在我的硬盘/本地网络上的目录中)

1 个答案:

答案 0 :(得分:2)

您可以使用Solr Cell(以前称为ExtractingRequestHandler

它建立在Apache Tika Project之上。

关于Solr Cell:

  

关键概念

     

使用Solr Cell框架时,保留它是有帮助的   请记住:

     
      
  • Tika将自动尝试确定输入文档类型(Word,PDF,HTML)并适当地提取内容。如果   您喜欢,您可以使用显式指定Tika的MIME类型   stream.type参数。
  •   
  • Tika通过生成一个XHTML流来提供给SAX ContentHandler。 SAX是为许多实现的通用接口   不同的XML解析器。有关更多信息,请参见
      http://www.saxproject.org/quickstart.html
  •   
  • Solr然后回应Tika的SAX事件并创建要索引的字段。
  •   
  • Tika根据DublinCore等规范生成标题,主题和作者等元数据。见
      {/ 3}}支持的文件类型。
  •   
  • Tika将所有提取的文本添加到内容字段中。该字段定义为"存储"在schema.xml中。它也被复制到文本中   带有copyField规则的字段。
  •   
  • 您可以将Tika的元数据字段映射到Solr字段。你也可以提升这些领域。
  •   
  • 您可以传入字段值的文字。文字将覆盖Tika解析的值,包括Tika元数据对象中的字段   Tika内容领域,以及任何"捕获的内容"字段。
  •   
  • 您可以将XPath表达式应用于Tika XHTML以限制生成的内容。
  •   

http://tika.apache.org/1.5/formats.html上的wiki页面提供了教程和配置信息。