将Solr与PDF文件一起使用

时间:2018-06-21 08:34:03

标签: pdf solr solrnet

我想将Solr与PDF文件一起使用,但是我不知道如何配置solrconfig.xml和schema.xml。我应该在那些文件中写什么?目的是使用同义词或拼写检查器进行全文搜索。(我在Windows上使用Solr,将来我将使用API​​ SolrNet)。谢谢!

1 个答案:

答案 0 :(得分:0)

您将使用Tika从PDF文件中提取文本。

  • Tika为title从PDF文档中提取了元数据, author,依此类推。因此,您的架构应包括 titleauthor

  • Tika将PDF文档的正文提取到content字段中,因此 您的架构还应包含一个content字段。

配置了Tika之后,您向Solr发出HTTP POST,并指定要索引的PDF文件:

curl 'http://localhost:8983/solr/techproducts/update/extract?literal.id=doc1&commit=true' -F "myfile=@example/exampledocs/solr-word.pdf"

如果需要将Tika生成的字段(titleauthorcontent)映射到Solr索引中的不同字段,则可以使用fmap功能:

fmap.content=text会将Tika提取的content字段映射到Solr的text字段。