如何使用Microsoft OCR改进文本识别?

时间:2017-06-26 22:51:44

标签: c# service ocr microsoft-cognitive

我正在使用Microsoft OCR库,我想知道是否有某种方法可以改善我的语言的文本识别。我用OCR库运行了一个程序,对我提供的图像的某些单词检测不佳。

我已经知道OCR支持西班牙语,但它没有正确处理所有单词,例如:

e.i.

我在json中得到的回应是:

    ...
         "boundingBox": "358,180,271,278",
         "lines": [
            {
               "boundingBox": "362,180,67,17",
               "words": [
                  {


             "boundingBox": "362,180,67,17",
                 "text": "Nonúre"
              }
           ]
        },
        {
           "boundingBox": "358,208,118,22",
           "words": [
              {
                 "boundingBox": "358,208,63,22",
                 "text": "tlgcT2"
              },
              {
                 "boundingBox": "428,217,7,4",
                 "text": "-"
              },
              {
                 "boundingBox": "441,210,35,16",
                 "text": "ED6"
              }
           ]
        },
    ...

将“ Nombre ”标识为“Nonúre”和“ CT2 (来自CT2 - ED6) “的 tlgcT2

有没有办法改善文字识别?

1 个答案:

答案 0 :(得分:0)

这很正常,您使用的是OCR V1,并且会正常运行。您需要使用版本2。检查此URL OCR V2。基本上,您需要对URL进行一些更改。 我不知道为什么Microsoft使用V1作为默认版本,也许是因为它是预览版...但是您可以使用它! 现在,当您将OCR Text或OCR Json排除在外时,检测效果会更好。

示例: Using OCR v2 with Postman

请让我知道它是否对您有用。