使用SOLR

时间:2019-05-02 15:00:15

标签: solr

我需要搜索很多存储在数据库(MSSQL)中的PDF文件。它们存储为BLOB。我需要逐步了解如何使用SOLR搜索它们。 我有一个数据库,让我们称之为“弗雷德”。 Fred内部是一个表,我们将其称为pdffiles。 pdffiles有一个名为pdfdata的列,类型为BLOB。 PDF文件存储在此表中,二进制数据存储在该列中。我应该采取什么步骤来使SOLR提取此数据并为其编制索引? 我猜想它涉及TikaEntityProcessor,但是将pdfs存储在数据库中而不是仅作为常规文件会增加一定程度的复杂性。我以前曾与SOLR合作,并使其在生产中运行。 示例数据配置和模式文件将非常有用。

1 个答案:

答案 0 :(得分:0)

我应该采取什么步骤使SOLR提取此数据并为其编制索引?

  1. 创建一个名为tika-data-config.xml的新文件,它将具有数据库配置和查询以获取数据。

  2. 您需要在文本编辑器中更新solrconfig.xml,并在config标签中添加以下内容:

enter image description here

  1. 您需要提及与数据导入处理程序有关的库。
  2. 提供相应的数据库jar文件。
  3. 通过提及您的字段来对schema.xml文件进行更改。根据您的搜索要求为您的字段添加适当的fieldType。
  4. 设置完成后,您可以请求solr进行索引 使用http://localhost:8983/solr/collection1/dataimport?command=full-import

请参阅solr上的链接以获取更多详细信息... Configure DIH