我想将Solr与PDF文件一起使用,但是我不知道如何配置solrconfig.xml和schema.xml。我应该在那些文件中写什么?目的是使用同义词或拼写检查器进行全文搜索。(我在Windows上使用Solr,将来我将使用API SolrNet)。谢谢!
答案 0 :(得分:0)
您将使用Tika从PDF文件中提取文本。
Tika为title
从PDF文档中提取了元数据,
author
,依此类推。因此,您的架构应包括
title
和author
。
Tika将PDF文档的正文提取到content
字段中,因此
您的架构还应包含一个content
字段。
配置了Tika之后,您向Solr发出HTTP POST,并指定要索引的PDF文件:
curl 'http://localhost:8983/solr/techproducts/update/extract?literal.id=doc1&commit=true' -F "myfile=@example/exampledocs/solr-word.pdf"
如果需要将Tika生成的字段(title
,author
,content
)映射到Solr索引中的不同字段,则可以使用fmap
功能:
fmap.content=text
会将Tika提取的content
字段映射到Solr的text
字段。