让ExtractingRequestHandler在Solr中工作

时间:2011-10-27 15:56:52

标签: drupal solr apache-tika solr-cell

我试图让Solr与Tika合作,以便我可以在Drupal网站上索引Word和PDF文档。

我查看了Wiki page和此page,并指出在solrconfig.xml中添加了requestHandler。

我做到了,现在索尔抛出异常:

  

org.apache.solr.common.SolrException:加载类'org.apache.solr.handler.extraction.ExtractingRequestHandler'

时出错

我做了一些搜索,看到其他人遇到了这个问题,但看不出简单的修复。我在 Windows Server 2003 上使用 Solr 3.4.0 。关于如何解决这个问题的任何想法?

作为旁注,我已经让Drupal使用Solr进行搜索,这是有效的。但我无法工作的是拥有Solr索引PDF和Word文档。我确信这是大多数网站的常见需求,但我已经花了好几天时间,我不敢相信这个文档很难记录,这很难弄明白。

1 个答案:

答案 0 :(得分:4)

如果您使用jetty设置从示例目录运行Solr,它应该按原样运行而不做任何更改。

然而,for multicore setup you would need to copy the jars into the lib directory

如果检查示例文件夹中的solrconfig,它包含solr单元格和提取库的jar文件。

solrconfig.xml -

取消注释此行以包含所有lib jar -

<lib dir="./lib" />

将jar从这些文件夹复制到多核lib文件夹。 这些罐子用于提取。 (Apache pdfbox,poi,fontbox等)

<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" />
<lib dir="../../contrib/extraction/lib" />

当你启动Solr时,你应该看到所有的jar都被加载了。 应该让你工作。