Question

我正在使用 Azure 文档搜索的 SDK。

具有以下命名空间。我也在学习在 githib 上发现和使用的课程https://github.com/Azure-Samples/azure-search-dotnet-samples 我正在学习浓缩代码。

using Azure.Search.Documents.Indexes;
using Azure.Search.Documents.Indexes.Models;

到目前为止一切都很好，我可以索引我自己的内容，从 PDF、Jpg 等工作正常。甚至可以全文搜索《战争与和平》的整个PDF进行测试。

我正在努力检索搜索文本的边界框，因此我可以在原始文本上突出显示它。

我已设法将 OCRSkill 设置为

indexingParameters.Configuration.Add("dataToExtract", "contentAndMetadata"); indexingParameters.Configuration.Add("imageAction", "generateNormalizedImagePerPage");

“generateNormalizedImagePerPage”将多页 PDF 破解为 JPG 图像，

我能够收到这个 JSON。使用“normalized_images”参数。

但是我无法获得搜索词坐标。使用 SDK。

我添加了我认为正确的索引参数，但即使在 Azure WebSearch 上，它们也返回空值

    {\"width\":1190,\"height\":1684,\"originalWidth\":1190,\"originalHeight\":1684,\"rotationFromOriginal\":0,\"contentOffset\":177186,\"pageNumber\":118,\"contentType\":\"image/jpeg\"}"
            ],
            "layoutText": [],
            "text": null,
            "merged_text": []

我已经尝试将 layoutTest 作为字符串，并且作为数组都返回空值，文本也返回空值，它不应该，我尝试了合并文本，因为我看到它是示例的一部分，我将所有代码都基于GitHub 示例。

我该怎么做，非常感谢任何帮助。 JFK 示例使用旧的已弃用方法，因此没有太大帮助。

获取搜索文本的边界框 Azure 认知搜索

0 个答案: