我们想在Azure中添加大量Blob,我们希望将它们添加到Azure搜索索引中。这些Blob具有多种格式(PDF,DOC,RTF等),但是都没有文件扩展名。
因此,Azure搜索在索引编制过程中表现不佳,因为它似乎仅使用文件扩展名进行文件格式检测。我们收到以下错误,并且由于我们所有文件都具有这些“无效”扩展名,因此无论为索引错误设置了任何阈值,都会发生该错误:
导入配置失败,创建索引器时出错:“数据错误 来源:文件 “ https://XXXXXXX.blob.core.windows.net/folder/filename.00001”有 不支持的内容类型“不支持”。只索引斑点 元数据并忽略其内容,设置“ dataToExtract”索引器 配置属性为“ storageMetadata”。看到 https://aka.ms/azsearchblobdatatoextract。忽略此错误并 继续为不支持的内容类型的Blob编制索引,请设置 将索引器配置中的'failOnUnsupportedContentType'切换为 假。有关更多信息,请参见 https://aka.ms/blob-indexer-parameters-for-extraction。请调整 您的数据源定义才能继续。”
是否有任何方法可以让Azure搜索进行基于文件内容的文件检测,或者至少使用Blob上的元数据?
答案 0 :(得分:1)
Azure Search已经可以进行基于内容的内容类型检测,但是有些斑点是有问题的。在索引器操作期间可以跳过这些有问题的Blob(带有警告,以便您了解发生了什么),但是,如果在索引器 creation 中遇到这样的Blob,则创建会失败,并显示您遇到的错误。
如果您删除(或跳过使用Blob元数据)所讨论的Blob,那么其他大多数Blob是否都能按预期工作?我怀疑如果可以与您共享,Azure搜索团队会感兴趣地查看问题Blob。