获取搜索文本的边界框 Azure 认知搜索

时间:2021-02-18 14:59:09

标签: azure azure-cognitive-search azure-cognitive-services

我正在使用 Azure 文档搜索的 SDK。

具有以下命名空间。我也在学习在 githib 上发现和使用的课程https://github.com/Azure-Samples/azure-search-dotnet-samples 我正在学习浓缩代码。

using Azure.Search.Documents.Indexes;
using Azure.Search.Documents.Indexes.Models;

到目前为止一切都很好,我可以索引我自己的内容,从 PDF、Jpg 等工作正常。甚至可以全文搜索《战争与和平》的整个PDF进行测试。

我正在努力检索搜索文本的边界框,因此我可以在原始文本上突出显示它。

我已设法将 OCRSkill 设置为

indexingParameters.Configuration.Add("dataToExtract", "contentAndMetadata"); indexingParameters.Configuration.Add("imageAction", "generateNormalizedImagePerPage");

“generateNormalizedImagePerPage”将多页 PDF 破解为 JPG 图像,

我能够收到这个 JSON。使用“normalized_images”参数。

但是我无法获得搜索词坐标。使用 SDK。

我添加了我认为正确的索引参数,但即使在 Azure WebSearch 上,它们也返回空值

    {\"width\":1190,\"height\":1684,\"originalWidth\":1190,\"originalHeight\":1684,\"rotationFromOriginal\":0,\"contentOffset\":177186,\"pageNumber\":118,\"contentType\":\"image/jpeg\"}"
            ],
            "layoutText": [],
            "text": null,
            "merged_text": []

我已经尝试将 layoutTest 作为字符串,并且作为数组都返回空值,文本也返回空值,它不应该,我尝试了合并文本,因为我看到它是示例的一部分,我将所有代码都基于GitHub 示例。

我该怎么做,非常感谢任何帮助。 JFK 示例使用旧的已弃用方法,因此没有太大帮助。

0 个答案:

没有答案