我正在使用 Azure 文档搜索的 SDK。
具有以下命名空间。我也在学习在 githib 上发现和使用的课程https://github.com/Azure-Samples/azure-search-dotnet-samples 我正在学习浓缩代码。
using Azure.Search.Documents.Indexes;
using Azure.Search.Documents.Indexes.Models;
到目前为止一切都很好,我可以索引我自己的内容,从 PDF、Jpg 等工作正常。甚至可以全文搜索《战争与和平》的整个PDF进行测试。
我正在努力检索搜索文本的边界框,因此我可以在原始文本上突出显示它。
我已设法将 OCRSkill 设置为
indexingParameters.Configuration.Add("dataToExtract", "contentAndMetadata"); indexingParameters.Configuration.Add("imageAction", "generateNormalizedImagePerPage");
“generateNormalizedImagePerPage”将多页 PDF 破解为 JPG 图像,
我能够收到这个 JSON。使用“normalized_images”参数。
但是我无法获得搜索词坐标。使用 SDK。
我添加了我认为正确的索引参数,但即使在 Azure WebSearch 上,它们也返回空值
{\"width\":1190,\"height\":1684,\"originalWidth\":1190,\"originalHeight\":1684,\"rotationFromOriginal\":0,\"contentOffset\":177186,\"pageNumber\":118,\"contentType\":\"image/jpeg\"}"
],
"layoutText": [],
"text": null,
"merged_text": []
我已经尝试将 layoutTest 作为字符串,并且作为数组都返回空值,文本也返回空值,它不应该,我尝试了合并文本,因为我看到它是示例的一部分,我将所有代码都基于GitHub 示例。
我该怎么做,非常感谢任何帮助。 JFK 示例使用旧的已弃用方法,因此没有太大帮助。