Question

我有PDF文件，我使用solr索引它并搜索文件的内容。由于文件的内容不遵循相同的顺序，我习惯将文件的整个内容视为文本字段来索引它们。我曾经使用curl命令索引文件，如下所示。

 curl "http://localhost:8080/solr/[core name]/update/extract?literal.id=doc1&uprefix=attr_&fmap.content=text&commit=true" -F "myfile=@filename.pdf"

现在我需要多个字段，例如，假设我有CV。我必须以这样的方式索引CV中的技能应该属于技能领域，CV中的地址必须属于地址字段并且资格进入资格字段。必须做出哪些改变？我将如何索引以及如何使用curl命令？我是solr的新手。请帮我简要介绍一下。非常感谢。

Answer 1

首先，您必须确定文档将具有的字段集，并在名为 schema.xml 的文件中定义它们。然后，当导入新文档时，您必须将每个值映射到其对应的字段。

请参阅文档中的数据导入工具：从XML文件link导入示例。数据导入工具是一种导入文档的简洁方法。导入文档的另一种编程方式（通过JAVA API）是SolrJ。