我试图让Solr与Tika合作,以便我可以在Drupal网站上索引Word和PDF文档。
我查看了Wiki page和此page,并指出在solrconfig.xml中添加了requestHandler。
我做到了,现在索尔抛出异常:
org.apache.solr.common.SolrException:加载类'org.apache.solr.handler.extraction.ExtractingRequestHandler'
时出错
我做了一些搜索,看到其他人遇到了这个问题,但看不出简单的修复。我在 Windows Server 2003 上使用 Solr 3.4.0 。关于如何解决这个问题的任何想法?
作为旁注,我已经让Drupal使用Solr进行搜索,这是有效的。但我无法工作的是拥有Solr索引PDF和Word文档。我确信这是大多数网站的常见需求,但我已经花了好几天时间,我不敢相信这个文档很难记录,这很难弄明白。
答案 0 :(得分:4)
如果您使用jetty设置从示例目录运行Solr,它应该按原样运行而不做任何更改。
然而,for multicore setup you would need to copy the jars into the lib directory。
如果检查示例文件夹中的solrconfig,它包含solr单元格和提取库的jar文件。
solrconfig.xml -
取消注释此行以包含所有lib jar -
<lib dir="./lib" />
将jar从这些文件夹复制到多核lib文件夹。 这些罐子用于提取。 (Apache pdfbox,poi,fontbox等)
<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" />
<lib dir="../../contrib/extraction/lib" />
当你启动Solr时,你应该看到所有的jar都被加载了。 应该让你工作。