Azure搜索中的文件格式检测

时间:2019-05-10 13:37:56

标签: azure azure-search

我们想在Azure中添加大量Blob,我们希望将它们添加到Azure搜索索引中。这些Blob具有多种格式(PDF,DOC,RTF等),但是都没有文件扩展名。

因此,Azure搜索在索引编制过程中表现不佳,因为它似乎仅使用文件扩展名进行文件格式检测。我们收到以下错误,并且由于我们所有文件都具有这些“无效”扩展名,因此无论为索引错误设置了任何阈值,都会发生该错误:

  

导入配置失败,创建索引器时出错:“数据错误   来源:文件   “ https://XXXXXXX.blob.core.windows.net/folder/filename.00001”有   不支持的内容类型“不支持”。只索引斑点   元数据并忽略其内容,设置“ dataToExtract”索引器   配置属性为“ storageMetadata”。看到   https://aka.ms/azsearchblobdatatoextract。忽略此错误并   继续为不支持的内容类型的Blob编制索引,请设置   将索引器配置中的'failOnUnsupportedContentType'切换为   假。有关更多信息,请参见   https://aka.ms/blob-indexer-parameters-for-extraction。请调整   您的数据源定义才能继续。”

是否有任何方法可以让Azure搜索进行基于文件内容的文件检测,或者至少使用Blob上的元数据?

1 个答案:

答案 0 :(得分:1)

Azure Search已经可以进行基于内容的内容类型检测,但是有些斑点是有问题的。在索引器操作期间可以跳过这些有问题的Blob(带有警告,以便您了解发生了什么),但是,如果在索引器 creation 中遇到这样的Blob,则创建会失败,并显示您遇到的错误。

如果您删除(或跳过使用Blob元数据)所讨论的Blob,那么其他大多数Blob是否都能按预期工作?我怀疑如果可以与您共享,Azure搜索团队会感兴趣地查看问题Blob。