Azure搜索,跳过大blob但仍然索引元数据

时间:2017-12-21 20:39:12

标签: azure azure-search

我们有一套blob,各种内容。

我们需要索引元数据和内容,但我们很乐意跳过不受支持的文件类型和非常大的文件的内容。例如,我们有

File One.docx - 支持的类型 - 索引元数据和内容(好)

File Two.dat - 不支持的类型 - 索引元数据跳过内容(好)

File Three.txt - 支持的类型,由于blob的大小而失败。 (坏)

我们的搜索配置基于docs,我们刚刚将failOnUnsupportedContentType添加到Configuration并将其设置为false

我们希望为File Three.txt的元数据编制索引,但跳过大内容,例如我们设置为failOnOversizedContent的{​​{1}}。

现在我们得到一个与blob大小相关的错误。

1 个答案:

答案 0 :(得分:2)

更新2018年1月3日

我意识到我使用AzureSearch_SkipContent blob元数据的原始建议无法解决问题,因为仍需要下载blob来处理内容类型元数据。

为了使此方案正常运行,我们正在添加indexStorageMetadataOnlyForOversizedDocuments索引器配置设置。它需要一个bool值,默认为false,因此在索引器配置中将其设置为true以启用它。这是印刷机的新鲜产品,将于1月19日在全球范围内投入生产。

原始回复

您可以将AzureSearch_SkipContent: true元数据添加到大型blob中,如Controlling which parts of the blob are indexed中所述。我意识到它可能不方便,但这可以解除你的阻碍。

  

我们想索引File Three.txt的元数据但跳过   大内容,我们会failOnOversizedContent   设置为false。

这看起来像一个有用的功能请求 - 请在our UserVoice site添加一个建议,我们会考虑这一点,特别是如果我们看到其他客户要求这样做。