Google Cloud Vision OCR API为边界框/顶点返回不正确的值

时间:2017-09-15 17:38:57

标签: api bounding-box vertices google-cloud-vision

我正在使用" TEXT_DETECTION"从Google Cloud Vision API到OCR的一些图片选项。

单个字符周围的边界框有时是准确的,有时不是,通常在同一图像中。

这是视觉算法的概率性质的正常副作用,Vision API中的错误,当然还有我如何解释响应的问题?

Image annotated with text and bounding boxes from Google Vision OCR API

The letter "a" with poor bounding box

这里是特定于字母的响应部分" a"我从中提取边界框。

stdClass Object
(
    [property] => stdClass Object
        (
            [detectedLanguages] => Array
                (
                    [0] => stdClass Object
                        (
                            [languageCode] => en
                        )

                )

        )

    [boundingBox] => stdClass Object
        (
            [vertices] => Array
                (
                    [0] => stdClass Object
                        (
                            [x] => 419
                            [y] => 304
                        )

                    [1] => stdClass Object
                        (
                            [x] => 479
                            [y] => 304
                        )

                    [2] => stdClass Object
                        (
                            [x] => 479
                            [y] => 397
                        )

                    [3] => stdClass Object
                        (
                            [x] => 419
                            [y] => 397
                        )

                )

        )

    [text] => a
)

1 个答案:

答案 0 :(得分:0)

在这里你可以比较Google vs Azure vs OCR.space的输出..也许其他的更适合你的目的? (但我对此表示怀疑)

  

这是视觉算法概率性质的正常副作用,这是Vision API中的一个错误,

从我的测试来看,所有OCR服务都显示出与今天相同的问题,有时它们无法检测到完美的字母或单词(同时检测到同一图像中的相似单词)。