Question

我目前正在为一个项目做一个高峰，希望社区能够对事情有所了解。

我想使用Google Cloud Vision扫描下面的图像，然后从中导出键/值对（例如标题：Ground Rod ...，最后修订版：2012年6月27日）。这是一个基本的例子，它可能有更多的数据，布局可能与此不同。

由于键/值之间没有简单的关联，我不确定这是否可能？是否有可能通过示例图像训练谷歌愿景？或者是否有其他解决方案可以做到这一点？

谢谢！

Answer 1

您可以使用Cloud Vision API扫描图像并获取使用Vision Api Client Libraries编写程序的有用键/值对。例如，拖动图像文件here并切换到“文本”标签，您可以看到这一点：

...] DRAWING TITLE GROUND ROD STRUCTURAL STEEL CONNECTION DETAIL E-80-05 Division of Technical Resources Office of Research Facilities National Institutes of Health The formulae 5-steel- deal ** * -||-| S - for building H-KANA --- Ej as state of the art e A uto-aut - R4fco- biomedical research facilities: LAST REVISION JUNE 27, 2012

在“文件”中，在第10块，您可以阅读：

G R O U N D  R O D  S T R U C T U R A L  S T E E L  C O N N E C T I O N  D E T A I L

最后一个有用的操作：打开“JSON”选项卡，在导航器中搜索“地杆结构”。如果您进入第四个入口并向上滚动，您将看到包含“2012年6月27日”的边界框的坐标，顺序相反：2,1,0,2等。 2的定义如下：

"boundingBox": {
                          "vertices": [
                            {
                              "x": 671,
                              "y": 1173
                            },
                            {
                              "x": 679,
                              "y": 1173
                            },
                            {
                              "x": 679,
                              "y": 1200
                            },
                            {
                              "x": 671,
                              "y": 1200
                            }
                          ]
                        },
                        "text": "2",
                        "confidence": 0.96
                      }
                    ],
                    "confidence": 0.98
                  }
                ],
                "confidence": 0.99
              }
            ],
            "blockType": "TEXT",
            "confidence": 0.99
          }
        ]
      }
    ],

据我所知，技术抽奖的页脚包含结构良好的有限类型的信息（例如 title ， date 和立法规则< / em>在这种情况下）不能改变太多。

考虑到通过Cloud Vision API和客户端库可用性收集的所有信息，可以使用其中一种代码语言编写脚本，以识别和保存有用的块并对其进行后处理以获取键/值对。找到文档文本检测示例here或教程 here。

无法使用示例图像训练Cloud Vision API。要训练机器学习模型，需要训练数据集及其相应的答案，通常表示为目标。您可以使用Cloud AI进行机器学习来完成此操作。

使用Google Cloud Vision +自然语言读取键/值对=可能吗？

1 个答案: