Google Vision OCR数据表

时间:2018-09-14 06:58:38

标签: ocr google-vision

我正在探索OCR的Google Vision API。我们有许多由用户计算机生成和填写的表格。像医疗报告和登记表一样。 我们需要处理这些图像并从中获得个性。我已经尝试过Google Vision API,并且在计算机生成表单的情况下也能很好地工作,但是手工填写会产生问题。就像如果用y轴上方的数据填充表格,单词将被视为上一行/下一行。就像下面的输出一样

Study Contact Name:
Test

预期

Study Contact Name: Test

The Form used

代码参考:https://cloud.google.com/vision/docs/detecting-text#vision-text-detection-java

有没有办法将其放在一行中,或者了解它是否属于该行?

在这种情况下还可以使用其他API吗?

2 个答案:

答案 0 :(得分:0)

“任何其他在这种情况下都可以提供帮助的API”,如果您指的是OCR API,我认为手写文档的效果不佳,或者至少不比Google更好。

无论如何,我个人使用的一种可能的方法是创建自己的方法来影响一行字母/单词。

这样,您可以控制单词之间的同一条“线”可以视为多少距离。

Google API为您提供了每个已识别字母的X和Y位置信息。因此,您可以简单地遍历所有字母或单词,如果它们在Y位置> =或<=到(例如2像素),则将它们包含在同一行中。

答案 1 :(得分:0)

我对你来说可能为时已晚,但既然我带着类似的问题来到这里,我将分享我的发现:

  1. 现在,Google 的 API 在识别手写表单方面要好得多。至少在我的测试中,它运行良好:Google Vision API。问题是识别表单的结构。我不知道如何告诉 Google 的 API 查找表格或查找特定字段。
  2. 我发现了一项您可能也感兴趣的有前途的服务:Azure Form recognizer