使用Google Cloud Vision +自然语言读取键/值对=可能吗?

时间:2018-03-28 06:19:01

标签: ocr google-cloud-vision

我目前正在为一个项目做一个高峰,希望社区能够对事情有所了解。

我想使用Google Cloud Vision扫描下面的图像,然后从中导出键/值对(例如标题:Ground Rod ...,最后修订版:2012年6月27日)。这是一个基本的例子,它可能有更多的数据,布局可能与此不同。

由于键/值之间没有简单的关联,我不确定这是否可能?是否有可能通过示例图像训练谷歌愿景?或者是否有其他解决方案可以做到这一点?

谢谢!

example image

1 个答案:

答案 0 :(得分:1)

您可以使用Cloud Vision API扫描图像并获取使用Vision Api Client Libraries编写程序的有用键/值对。例如,拖动图像文件here并切换到“文本”标签,您可以看到这一点:

...] DRAWING TITLE GROUND ROD STRUCTURAL STEEL CONNECTION DETAIL E-80-05 Division of Technical Resources Office of Research Facilities National Institutes of Health The formulae 5-steel- deal ** * -||-| S - for building H-KANA --- Ej as state of the art e A uto-aut - R4fco- biomedical research facilities: LAST REVISION JUNE 27, 2012

在“文件”中,在第10块,您可以阅读:

G R O U N D  R O D  S T R U C T U R A L  S T E E L  C O N N E C T I O N  D E T A I L

最后一个有用的操作:打开“JSON”选项卡,在导航器中搜索“地杆结构”。如果您进入第四个入口并向上滚动,您将看到包含“2012年6月27日”的边界框的坐标,顺序相反:2,1,0,2等。 2的定义如下:

"boundingBox": {
                          "vertices": [
                            {
                              "x": 671,
                              "y": 1173
                            },
                            {
                              "x": 679,
                              "y": 1173
                            },
                            {
                              "x": 679,
                              "y": 1200
                            },
                            {
                              "x": 671,
                              "y": 1200
                            }
                          ]
                        },
                        "text": "2",
                        "confidence": 0.96
                      }
                    ],
                    "confidence": 0.98
                  }
                ],
                "confidence": 0.99
              }
            ],
            "blockType": "TEXT",
            "confidence": 0.99
          }
        ]
      }
    ],

据我所知,技术抽奖的页脚包含结构良好的有限类型的信息(例如 title date 立法规则< / em>在这种情况下)不能改变太多。

考虑到通过Cloud Vision API和客户端库可用性收集的所有信息,可以使用其中一种代码语言编写脚本,以识别和保存有用的块并对其进行后处理以获取键/值对。找到文档文本检测示例here教程 here

无法使用示例图像训练Cloud Vision API。要训​​练机器学习模型,需要训练数据集及其相应的答案,通常表示为目标。您可以使用Cloud AI进行机器学习来完成此操作。