我在Ubuntu 10.04上运行Solr 1.4(通过apt-get solr-tomcat安装),它似乎工作正常。我很难找到关于如何索引文档的任何连贯信息。我是SOLR的新手,所以请耐心等待! 我有一个文件夹(/ mnt /文件夹),它是一个挂载的Windows共享,其中包含我想索引的Word和PDF文件,是什么最简单的方法让SOLR索引整个文件夹?
SOLR的文档相当差,无法找到任何有关完成任务的体面教程,所以非常感谢任何帮助!
取值
答案 0 :(得分:7)
看看Solr wiki,这是一份非常详尽的文档。
特别参见ExtractingRequestHandler,它允许您索引Word和PDF文档等二进制文件。 Here's an introduction主题。
如果wiki不够,还有great book about Solr。
答案 1 :(得分:1)
我在核心文档中遇到了同样的挑战,但我从LucidImagination那里得到了非常有用的参考指南,这有助于澄清SOLR的很多内容:
http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide
答案 2 :(得分:0)
使用Solr处理富文档:http://wiki.apache.org/solr/UpdateRichDocuments