如何索引SOLR中的文档?

时间:2010-05-10 10:48:11

标签: solr full-text-search apache-tika solr-cell

我在Ubuntu 10.04上运行Solr 1.4(通过apt-get solr-tomcat安装),它似乎工作正常。我很难找到关于如何索引文档的任何连贯信息。我是SOLR的新手,所以请耐心等待! 我有一个文件夹(/ mnt /文件夹),它是一个挂载的Windows共享,其中包含我想索引的Word和PDF文件,是什么最简单的方法让SOLR索引整个文件夹?

SOLR的文档相当差,无法找到任何有关完成任务的体面教程,所以非常感谢任何帮助!

取值

3 个答案:

答案 0 :(得分:7)

看看Solr wiki,这是一份非常详尽的文档。

特别参见ExtractingRequestHandler,它允许您索引Word和PDF文档等二进制文件。 Here's an introduction主题。

如果wiki不够,还有great book about Solr

答案 1 :(得分:1)

我在核心文档中遇到了同样的挑战,但我从LucidImagination那里得到了非常有用的参考指南,这有助于澄清SOLR的很多内容:

http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide

答案 2 :(得分:0)