我正在与Solr合作,并且试图找出如何对一堆PDF文件以及特定的摄取段落建立索引。 我的PDF包含以下段落:
测试(某些测试)->该段落的标题
某些文本->该段落的文本
我需要实现的是,当我向Solr进行搜索时,我应该看到一个结果,该段落的标题和与之相关的文本。
例如,我将搜索“关键字”,结果将是该关键字:
你好(关键字)
段落全文
我需要帮助,因为我不知道该怎么做。 我想知道是否应该使用某些外部工具,或者需要在Solr中进行哪些修改才能获得结果。
答案 0 :(得分:0)
您绝对需要进行外部工作,如果仅使用solr,它将把提取的所有文本捆绑到同一字段中,而您不希望这样做。因此,您必须使用Apache Tika / pdfbox或其他库来提取文本(将标题和正文分开),并将它们编入不同的字段。
这将使indeixng流程更具弹性,因为对于大型索引工作,建议不要在Solr中使用内置的Tika代码。