在solr中索引时需要单个文件的多个字段

时间:2014-04-07 09:32:36

标签: solr

我有PDF文件,我使用solr索引它并搜索文件的内容。由于文件的内容不遵循相同的顺序,我习惯将文件的整个内容视为文本字段来索引它们。我曾经使用curl命令索引文件,如下所示。

 curl "http://localhost:8080/solr/[core name]/update/extract?literal.id=doc1&uprefix=attr_&fmap.content=text&commit=true" -F "myfile=@filename.pdf"

现在我需要多个字段,例如,假设我有CV。我必须以这样的方式索引CV中的技能应该属于技能领域,CV中的地址必须属于地址字段并且资格进入资格字段。 必须做出哪些改变?我将如何索引以及如何使用curl命令?我是solr的新手。请帮我简要介绍一下。非常感谢。

1 个答案:

答案 0 :(得分:0)

首先,您必须确定文档将具有的字段集,并在名为 schema.xml 的文件中定义它们。然后,当导入新文档时,您必须将每个值映射到其对应的字段。

请参阅文档中的数据导入工具:从XML文件link导入示例。数据导入工具是一种导入文档的简洁方法。导入文档的另一种编程方式(通过JAVA API)是SolrJ