Question

我正在探索OCR的Google Vision API。我们有许多由用户计算机生成和填写的表格。像医疗报告和登记表一样。我们需要处理这些图像并从中获得个性。我已经尝试过Google Vision API，并且在计算机生成表单的情况下也能很好地工作，但是手工填写会产生问题。就像如果用y轴上方的数据填充表格，单词将被视为上一行/下一行。就像下面的输出一样

Study Contact Name:
Test

预期

Study Contact Name: Test

The Form used

代码参考：https://cloud.google.com/vision/docs/detecting-text#vision-text-detection-java

有没有办法将其放在一行中，或者了解它是否属于该行？

在这种情况下还可以使用其他API吗？

Answer 1

“任何其他在这种情况下都可以提供帮助的API”，如果您指的是OCR API，我认为手写文档的效果不佳，或者至少不比Google更好。

无论如何，我个人使用的一种可能的方法是创建自己的方法来影响一行字母/单词。

这样，您可以控制单词之间的同一条“线”可以视为多少距离。

Google API为您提供了每个已识别字母的X和Y位置信息。因此，您可以简单地遍历所有字母或单词，如果它们在Y位置> =或<=到（例如2像素），则将它们包含在同一行中。

Answer 2

我对你来说可能为时已晚，但既然我带着类似的问题来到这里，我将分享我的发现：

现在，Google 的 API 在识别手写表单方面要好得多。至少在我的测试中，它运行良好：Google Vision API。问题是识别表单的结构。我不知道如何告诉 Google 的 API 查找表格或查找特定字段。
我发现了一项您可能也感兴趣的有前途的服务：Azure Form recognizer

Google Vision OCR数据表

2 个答案: