使用Azure搜索blob提取程序处理大型文件

时间:2017-04-14 15:23:15

标签: azure-storage-blobs azure-search

从Blob提取器接收文件对于当前层来说太大的错误,这是基本的。我将升级到更高级别,但我注意到最大大小目前是256MB。

当我有PPTX文件主要是视频和音频,但有我感兴趣的文字时,有没有办法对它们进行索引? blob提取器最大文件大小实际意味着什么?

我可以告诉提取器只接受第一个X MB或字符并停止吗?

1 个答案:

答案 0 :(得分:1)

blob索引器中有两个相关限制:

  1. 您要达到的最大文件大小限制。如果文件大小超过该限制,索引器不会尝试下载它并产生错误以确保您知道该问题。我们不仅仅采用前N个字节的原因是因为正确解析许多格式,需要整个文件。您可以将blob标记为可跳过,或者将索引器配置为忽略大量错误,如果您希望它在遇到过大的blob时前进。

  2. 提取文字的最大尺寸。如果文件包含的文本多于该文本,则索引器会将N个字符提升到限制并包含警告,以便您可以了解该问题。当然,未提取的内容(例如视频,至少今天)不会对此限制做出贡献。

  3. 您需要索引的PPTX有多大?我会在评论中添加我的联系信息。