Question

我正在使用Microsoft OCR库，我想知道是否有某种方法可以改善我的语言的文本识别。我用OCR库运行了一个程序，对我提供的图像的某些单词检测不佳。

我已经知道OCR支持西班牙语，但它没有正确处理所有单词，例如：

我在json中得到的回应是：

    ...
         "boundingBox": "358,180,271,278",
         "lines": [
            {
               "boundingBox": "362,180,67,17",
               "words": [
                  {


             "boundingBox": "362,180,67,17",
                 "text": "Nonúre"
              }
           ]
        },
        {
           "boundingBox": "358,208,118,22",
           "words": [
              {
                 "boundingBox": "358,208,63,22",
                 "text": "tlgcT2"
              },
              {
                 "boundingBox": "428,217,7,4",
                 "text": "-"
              },
              {
                 "boundingBox": "441,210,35,16",
                 "text": "ED6"
              }
           ]
        },
    ...

将“ Nombre ”标识为“Nonúre”和“ CT2 ”（来自CT2 - ED6） “的 tlgcT2 ”

有没有办法改善文字识别？

Answer 1

这很正常，您使用的是OCR V1，并且会正常运行。您需要使用版本2。检查此URL OCR V2。基本上，您需要对URL进行一些更改。我不知道为什么Microsoft使用V1作为默认版本，也许是因为它是预览版...但是您可以使用它！现在，当您将OCR Text或OCR Json排除在外时，检测效果会更好。

示例： Using OCR v2 with Postman

请让我知道它是否对您有用。

如何使用Microsoft OCR改进文本识别？

1 个答案: