应用错误收集

时间：2018-07-16 11:47:33

标签： solr

我正在与Solr合作，并且试图找出如何对一堆PDF文件以及特定的摄取段落建立索引。我的PDF包含以下段落：

测试（某些测试）->该段落的标题

某些文本->该段落的文本

我需要实现的是，当我向Solr进行搜索时，我应该看到一个结果，该段落的标题和与之相关的文本。

例如，我将搜索“关键字”，结果将是该关键字：

你好（关键字）

段落全文

我需要帮助，因为我不知道该怎么做。我想知道是否应该使用某些外部工具，或者需要在Solr中进行哪些修改才能获得结果。

答案 0 :(得分：0)

您绝对需要进行外部工作，如果仅使用solr，它将把提取的所有文本捆绑到同一字段中，而您不希望这样做。因此，您必须使用Apache Tika / pdfbox或其他库来提取文本（将标题和正文分开），并将它们编入不同的字段。

这将使indeixng流程更具弹性，因为对于大型索引工作，建议不要在Solr中使用内置的Tika代码。