如何在非结构化Blob数据的天蓝色搜索中提高得分?

时间:2018-12-06 15:03:53

标签: azure-search azure-search-.net-sdk

我正在使用Azure搜索,该搜索对导入非结构化数据(pdf,doc,文本,图像文件等)的数据使用默认索引<​​/ p>

我没有在默认可用字段上设置任何评分资料。

门户中几乎所有设置都是默认设置。如果我通过搜索浏览器搜索任何文本,那么我会得到搜索结果非常低的JSON结果。

我阅读了有关使用得分配置文件提高得分的信息。但是,我要查找的术语可以在任何位置的任何文档中。那么我该如何决定在哪个领域可以加重呢?

如何在这些输入文件上生成更多自定义字段?我需要编写文档解析器吗?

我在机器人中使用的是SDK 4.0和c#。

请提出建议。

1 个答案:

答案 0 :(得分:1)

要使用评分配置文件,您要提升的字段必须是索引定义的一部分,否则评分机制将不了解它们。

您提到使用非结构化数据作为源,我认为这意味着您的数据没有任何稳定或可预测的结构。如果真是这样,那么您可能将无法更新索引定义以完全匹配每个文档的结构,因为不同的文档可能具有不同且不可预测的结构。如果您知道要增强的字段,并且知道如何从文档中检索这些字段,则可以仅使用您关心的字段来更新索引定义,然后使用“合并”文档API填充该字段对于每个文档。

https://docs.microsoft.com/en-us/rest/api/searchservice/addupdate-or-delete-documents

这将要求您从索引中检索所有文档,解析数据以提取要增强的字段,然后使用合并API用提取的数据更新索引数据。有了这个,您就可以将该字段用作评分资料的一部分。