为什么GCP Vision API在python中的结果比其在线演示更糟糕

时间:2018-05-01 13:38:51

标签: python ocr google-cloud-vision

我写了一个基本的python脚本来调用和使用GCP Vision API。我的目标是向其发送产品图像并检索(使用OCR)写在此框中的文字。我有一个预定义的品牌列表,因此我可以在API的返回文本中搜索品牌,并检测它是什么。

我的python脚本如下:

import  io
from google.cloud import vision
from google.cloud.vision import types
import os
import cv2
import numpy as np

os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "**************************"


def detect_text(file):
    """Detects text in the file."""
    client = vision.ImageAnnotatorClient()

    with io.open(file, 'rb') as image_file:
        content = image_file.read()

    image = types.Image(content=content)

    response = client.text_detection(image=image)
    texts = response.text_annotations
    print('Texts:')

    for text in texts:
        print('\n"{}"'.format(text.description))

        vertices = (['({},{})'.format(vertex.x, vertex.y)
                    for vertex in text.bounding_poly.vertices])

        print('bounds: {}'.format(','.join(vertices)))


file_name = "Image.jpg"
img = cv2.imread(file_name)

detect_text(file_name)

目前,我正在尝试以下产品图片:enter image description here(951×335分辨率)

其品牌为Acuvue

问题如下。当我测试GCP Cloud Vision API的在线演示时,我得到了此图像的以下文本结果:

FOR ASTIGMATISM 1-DAY ACUVUE MOIST WITH LACREON™ 30 Lenses BRAND CONTACT LENSES UV BLOCKING

(这样的json结果会返回上面的所有单词,包括对我来说很重要的单词Acuvue,但json太长了,无法在此处发布)

因此,在线演示可以很好地检测到产品上的文字,并且至少可以准确地检测到单词Acuvue(这是品牌)。但是,当我在我的python脚本中使用相同的图像调用相同的API时,我得到以下结果:

Texts:

"1.DAY
FOR ASTIGMATISM
WITH
LACREONTM
MOIS
30 Lenses
BRAND CONTACT LENSES
UV BLOCKING
"
bounds: (221,101),(887,101),(887,284),(221,284)

"1.DAY"
bounds: (221,101),(312,101),(312,125),(221,125)

"FOR"
bounds: (622,107),(657,107),(657,119),(622,119)

"ASTIGMATISM"
bounds: (664,107),(788,107),(788,119),(664,119)

"WITH"
bounds: (614,136),(647,136),(647,145),(614,145)

"LACREONTM"
bounds: (600,151),(711,146),(712,161),(601,166)

"MOIS"
bounds: (378,162),(525,153),(528,200),(381,209)

"30"
bounds: (614,177),(629,178),(629,188),(614,187)

"Lenses"
bounds: (634,178),(677,180),(677,189),(634,187)

"BRAND"
bounds: (361,210),(418,210),(418,218),(361,218)

"CONTACT"
bounds: (427,209),(505,209),(505,218),(427,218)

"LENSES"
bounds: (514,209),(576,209),(576,218),(514,218)

"UV"
bounds: (805,274),(823,274),(823,284),(805,284)

"BLOCKING"
bounds: (827,276),(887,276),(887,284),(827,284)

但这并没有像演示那样检测到“Acuvue”这个词!

为什么会这样?

我可以在我的python脚本中修复一些东西以使其正常工作吗?

1 个答案:

答案 0 :(得分:4)

From the docs

  

Vision API可以检测和提取图像中的文本。有两个注释功能支持OCR:

     
      
  • TEXT_DETECTION检测并从任何图像中提取文本。例如,照片可能包含街道标志或交通标志。 JSON包括整个提取的字符串,以及单个单词及其边界框。

  •   
  • DOCUMENT_TEXT_DETECTION还从图像中提取文本,但响应针对密集文本和文档进行了优化。 JSON包括页面,块,段落,单词和中断信息。)

  •   

我希望网络API实际上使用后者,然后根据信心过滤结果。

  

DOCUMENT_TEXT_DETECTION响应包括其他布局信息,例如页面,块,段落,单词和中断信息,以及每个的置信度分数。

无论如何,我希望(我的经验是)后一种方法会“更加努力”找到所有的字符串。

我不认为你做了什么“错误”。只有两种并行检测方法。一个(DOCUMENT_TEXT_DETECTION)更加强烈,针对文档进行了优化(可能是拉直,对齐和均匀间隔的线条),并提供了一些可能对某些应用程序不必要的信息。

所以我建议您按照Python example here修改代码。

最后,我的猜测是你询问的\342\204\242是转义的八进制值,对应于它认为在尝试识别™符号时发现的utf-8字符。

如果您使用以下代码段:

b = b"\342\204\242"
s = b.decode('utf8')
print(s)

你会很高兴看到它打印™。