我目前正在为一个项目做一个高峰,希望社区能够对事情有所了解。
我想使用Google Cloud Vision扫描下面的图像,然后从中导出键/值对(例如标题:Ground Rod ...,最后修订版:2012年6月27日)。这是一个基本的例子,它可能有更多的数据,布局可能与此不同。
由于键/值之间没有简单的关联,我不确定这是否可能?是否有可能通过示例图像训练谷歌愿景?或者是否有其他解决方案可以做到这一点?
谢谢!
答案 0 :(得分:1)
您可以使用Cloud Vision API扫描图像并获取使用Vision Api Client Libraries编写程序的有用键/值对。例如,拖动图像文件here并切换到“文本”标签,您可以看到这一点:
...] DRAWING TITLE GROUND ROD STRUCTURAL STEEL CONNECTION DETAIL E-80-05 Division of Technical Resources Office of Research Facilities National Institutes of Health The formulae 5-steel- deal ** * -||-| S - for building H-KANA --- Ej as state of the art e A uto-aut - R4fco- biomedical research facilities: LAST REVISION JUNE 27, 2012
在“文件”中,在第10块,您可以阅读:
G R O U N D R O D S T R U C T U R A L S T E E L C O N N E C T I O N D E T A I L
最后一个有用的操作:打开“JSON”选项卡,在导航器中搜索“地杆结构”。如果您进入第四个入口并向上滚动,您将看到包含“2012年6月27日”的边界框的坐标,顺序相反:2,1,0,2等。 2的定义如下:
"boundingBox": {
"vertices": [
{
"x": 671,
"y": 1173
},
{
"x": 679,
"y": 1173
},
{
"x": 679,
"y": 1200
},
{
"x": 671,
"y": 1200
}
]
},
"text": "2",
"confidence": 0.96
}
],
"confidence": 0.98
}
],
"confidence": 0.99
}
],
"blockType": "TEXT",
"confidence": 0.99
}
]
}
],
据我所知,技术抽奖的页脚包含结构良好的有限类型的信息(例如 title , date 和立法规则< / em>在这种情况下)不能改变太多。
考虑到通过Cloud Vision API和客户端库可用性收集的所有信息,可以使用其中一种代码语言编写脚本,以识别和保存有用的块并对其进行后处理以获取键/值对。找到文档文本检测示例here或教程 here。
无法使用示例图像训练Cloud Vision API。要训练机器学习模型,需要训练数据集及其相应的答案,通常表示为目标。您可以使用Cloud AI进行机器学习来完成此操作。