我需要搜索很多存储在数据库(MSSQL)中的PDF文件。它们存储为BLOB。我需要逐步了解如何使用SOLR搜索它们。 我有一个数据库,让我们称之为“弗雷德”。 Fred内部是一个表,我们将其称为pdffiles。 pdffiles有一个名为pdfdata的列,类型为BLOB。 PDF文件存储在此表中,二进制数据存储在该列中。我应该采取什么步骤来使SOLR提取此数据并为其编制索引? 我猜想它涉及TikaEntityProcessor,但是将pdfs存储在数据库中而不是仅作为常规文件会增加一定程度的复杂性。我以前曾与SOLR合作,并使其在生产中运行。 示例数据配置和模式文件将非常有用。
答案 0 :(得分:0)
我应该采取什么步骤使SOLR提取此数据并为其编制索引?
创建一个名为tika-data-config.xml
的新文件,它将具有数据库配置和查询以获取数据。
您需要在文本编辑器中更新solrconfig.xml
,并在config标签中添加以下内容:
schema.xml
文件进行更改。根据您的搜索要求为您的字段添加适当的fieldType。http://localhost:8983/solr/collection1/dataimport?command=full-import
请参阅solr上的链接以获取更多详细信息... Configure DIH