我们正在尝试启用全文搜索。应用程序将PDF文件存储在Azure Blob存储中,Azure Blob存储是Azure搜索的数据源。大多数工作正常,但索引器无法从几个PDF中提取文本。 Azure搜索索引器可以提取哪些特定类型的PDF?如果是,那它们是什么?
任何信息,这方面的帮助/支持都非常感谢。
答案 0 :(得分:1)
Azure搜索索引器可以提取哪些特定类型的PDF?
根据我的经验,Azure搜索索引器无法提取特定类型的PDF。根据您的描述,我假设它达到了Azure搜索限制。有关更多详细信息,请参阅Indexing Documents in Azure Blob Storage with Azure Search。
Azure搜索会根据定价等级限制提取的文字数量:免费套餐的 32,000 字符, 64,000的 , 400万标准,标准S2和标准S3层。截断文档的索引器状态响应中包含警告。
答案 1 :(得分:1)
Azure搜索可以从PDF text elements中提取所有文本。从嵌入式图像(需要OCR)或表中提取文本尚未集成到Azure搜索中,但它位于路线图中。
如果您的PDF包含图片,并且您想要从这些图片中提取文字,那么您可以尝试执行here步骤。
答案 2 :(得分:0)
我最近写了一篇关于我的经验的博客文章。我最终使用了运行在Azure有点复杂的Docker容器中的基于python的脚本,但是博客对它进行了非常清晰的布局(就OCR /可搜索性而言,结果非常好)