应用错误收集

您可以使用Solr Cell（以前称为ExtractingRequestHandler）

关于Solr Cell：

关键概念

使用Solr Cell框架时，保留它是有帮助的   请记住：


Tika将自动尝试确定输入文档类型（Word，PDF，HTML）并适当地提取内容。如果   您喜欢，您可以使用显式指定Tika的MIME类型   stream.type参数。

Tika通过生成一个XHTML流来提供给SAX ContentHandler。 SAX是为许多实现的通用接口   不同的XML解析器。有关更多信息，请参见
  http://www.saxproject.org/quickstart.html。

Solr然后回应Tika的SAX事件并创建要索引的字段。

Tika根据DublinCore等规范生成标题，主题和作者等元数据。见
  {/ 3}}支持的文件类型。

Tika将所有提取的文本添加到内容字段中。该字段定义为＆＃34;存储＆＃34;在schema.xml中。它也被复制到文本中   带有copyField规则的字段。

您可以将Tika的元数据字段映射到Solr字段。你也可以提升这些领域。

您可以传入字段值的文字。文字将覆盖Tika解析的值，包括Tika元数据对象中的字段   Tika内容领域，以及任何＆＃34;捕获的内容＆＃34;字段。

您可以将XPath表达式应用于Tika XHTML以限制生成的内容。

http://tika.apache.org/1.5/formats.html上的wiki页面提供了教程和配置信息。

将Solr（4.8.1）指向目录（Windows 7）

1 个答案: