Question

我试图让Solr与Tika合作，以便我可以在Drupal网站上索引Word和PDF文档。

我查看了Wiki page和此page，并指出在solrconfig.xml中添加了requestHandler。

我做到了，现在索尔抛出异常：

org.apache.solr.common.SolrException：加载类'org.apache.solr.handler.extraction.ExtractingRequestHandler'
时出错

我做了一些搜索，看到其他人遇到了这个问题，但看不出简单的修复。我在 Windows Server 2003 上使用 Solr 3.4.0 。关于如何解决这个问题的任何想法？

作为旁注，我已经让Drupal使用Solr进行搜索，这是有效的。但我无法工作的是拥有Solr索引PDF和Word文档。我确信这是大多数网站的常见需求，但我已经花了好几天时间，我不敢相信这个文档很难记录，这很难弄明白。

Answer 1

如果您使用jetty设置从示例目录运行Solr，它应该按原样运行而不做任何更改。

如果检查示例文件夹中的solrconfig，它包含solr单元格和提取库的jar文件。

solrconfig.xml -

取消注释此行以包含所有lib jar -

<lib dir="./lib" />

将jar从这些文件夹复制到多核lib文件夹。这些罐子用于提取。（Apache pdfbox，poi，fontbox等）

<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" />
<lib dir="../../contrib/extraction/lib" />

当你启动Solr时，你应该看到所有的jar都被加载了。应该让你工作。