应用错误收集

如何索引SOLR中的文档？

时间：2010-05-10 10:48:11

标签： solr full-text-search apache-tika solr-cell

我在Ubuntu 10.04上运行Solr 1.4（通过apt-get solr-tomcat安装），它似乎工作正常。我很难找到关于如何索引文档的任何连贯信息。我是SOLR的新手，所以请耐心等待！我有一个文件夹（/ mnt /文件夹），它是一个挂载的Windows共享，其中包含我想索引的Word和PDF文件，是什么最简单的方法让SOLR索引整个文件夹？

SOLR的文档相当差，无法找到任何有关完成任务的体面教程，所以非常感谢任何帮助！

取值

3 个答案:

答案 0 :(得分：7)

看看Solr wiki，这是一份非常详尽的文档。

特别参见ExtractingRequestHandler，它允许您索引Word和PDF文档等二进制文件。 Here's an introduction主题。

如果wiki不够，还有great book about Solr。

答案 1 :(得分：1)

我在核心文档中遇到了同样的挑战，但我从LucidImagination那里得到了非常有用的参考指南，这有助于澄清SOLR的很多内容：

http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide

答案 2 :(得分：0)

使用Solr处理富文档：http://wiki.apache.org/solr/UpdateRichDocuments