搜索 Azure Blob 存储内容(大 Blob,超过 256MB)

时间:2021-01-08 15:11:44

标签: c# azure-storage-blobs azure-cognitive-search

在我们的应用程序中,我们需要在 blob 的内容中进行搜索。我已经看过 Azure 认知搜索,但 blob 的最大大小是 256MB,我们有比这更大的 blob。我搜索了其他支持索引和搜索巨大 blob 的替代方案,但找不到任何替代方案。有什么我们可以使用的吗?谢谢

1 个答案:

答案 0 :(得分:0)

通常在您有如此大的 blob 的情况下,我认为最好对它们进行预处理。如果您需要异地复制或从备份中快速恢复,这也有一个好处。例如,在 Azure Functions 中,可以触发 Blob 触发器来执行某些代码。在这种情况下,您可以利用 Apache Tika 从文件中提取文本并将它们存储回单独的 blob 容器。然后让认知搜索从那里提取提取的文本。请注意,从这么大的文件中提取这么多文本可能会占用大量计算和内存,因此您的预处理实际上可能需要更高的计算/内存。

代码现在有点旧,但希望这个在 Azure 函数中使用 TikaDotNet 的示例也可能有所帮助:https://github.com/liamca/AzureSearch-AzureFunctions-CognitiveServices/blob/master/ApacheTika/run.csx

请注意,我从未在如此大的文件上尝试过此代码。

相关问题