我在Google Cloud Vision API
上使用Python
来检测通常在商店/商店上方的ho积板上的文本值。到目前为止,我已经能够检测到单个单词及其边界多边形的坐标。有没有一种方法可以根据检测到的单词的相对位置和大小对其进行分组?
例如,商店的名称通常以相同的大小写出并且单词对齐。 API是否提供某些功能来将那些可能属于较大句子(商店名称或地址等)的单词组合在一起?
如果API不提供此类功能,将它们分组的好方法是什么?以下是到目前为止我所做的图像示例:
description: "SHOP"
bounding_poly {
vertices {
x: 4713
y: 737
}
vertices {
x: 5538
y: 737
}
vertices {
x: 5538
y: 1086
}
vertices {
x: 4713
y: 1086
}
}
, description: "OVOns"
bounding_poly {
vertices {
x: 6662
y: 1385
}
vertices {
x: 6745
y: 1385
}
vertices {
x: 6745
y: 1402
}
vertices {
x: 6662
y: 1402
}
}
答案 0 :(得分:1)
我建议您看看将DOCUMENT_TEXT_DETECTION
用于OCR识别请求时所应用的TextAnnotation响应格式。此响应包含有关图像元数据和文本内容值的详细信息,可用于按块,段落,单词等对文本进行分组,如公共文档中所述:
TextAnnotation包含OCR提取文本的结构化表示。 OCR提取的文本结构的层次结构如下:TextAnnotation->页面->块->段落-> Word->符号
此外,您可以遵循此有用的example,该处显示了如何通过处理fullTextAnnotation
响应内容来组织从收据图像中提取的文本。