在Azure Blob存储中使用Azure搜索PDF

时间:2018-01-27 08:42:58

标签: azure-search azure-blob-storage

我们正在尝试启用全文搜索。应用程序将PDF文件存储在Azure Blob存储中,Azure Blob存储是Azure搜索的数据源。大多数工作正常,但索引器无法从几个PDF中提取文本。 Azure搜索索引器可以提取哪些特定类型的PDF?如果是,那它们是什么?

任何信息,这方面的帮助/支持都非常感谢。

3 个答案:

答案 0 :(得分:1)

  

Azure搜索索引器可以提取哪些特定类型的PDF?

根据我的经验,Azure搜索索引器无法提取特定类型的PDF。根据您的描述,我假设它达到了Azure搜索限制。有关更多详细信息,请参阅Indexing Documents in Azure Blob Storage with Azure Search

  

Azure搜索会根据定价等级限制提取的文字数量:免费套餐 32,000 字符, 64,000的 400万标准,标准S2和标准S3层。截断文档的索引器状态响应中包含警告。

答案 1 :(得分:1)

Azure搜索可以从PDF text elements中提取所有文本。从嵌入式图像(需要OCR)或表中提取文本尚未集成到Azure搜索中,但它位于路线图中。

如果您的PDF包含图片,并且您想要从这些图片中提取文字,那么您可以尝试执行here步骤。

答案 2 :(得分:0)

我最近写了一篇关于我的经验的博客文章。我最终使用了运行在Azure有点复杂的Docker容器中的基于python的脚本,但是博客对它进行了非常清晰的布局(就OCR /可搜索性而言,结果非常好)

http://martyice.github.io/docker-in-azure/