Question

我们正在使用Google Cloud Vision API来提取发票字段。我们想知道API是否支持检测数据表？或者我们是否必须编写自定义代码来检测表？

Answer 1

Google Vision API不会以结构化方式从表单中返回数据。但是，响应中将提供围绕文本的多边形坐标（boundingPoly）。 Take a look at this example：

{
     "description": "ABBEY",
     "boundingPoly": {
         "vertices": [ {
             "x": 44,
             "y": 43
             }, ...
          ] }, ...
}

您可以使用的一种方法是确定发票上字段的坐标，然后编写一些代码来迭代JSON响应的boundingPoly对象，以检查顶点所在的区域是否与某种程度重叠。您所在领域的区域。如果boundingPoly坐标与您的字段位于同一区域，那么 - 例如Python - 您可以使用字典将这些单词映射到您的字段名称。

Google Cloud Vision API上是否有任何选项可用于检测并返回扫描图像中的表格（带有标题的行和列）？

1 个答案: