我正在探索OCR的Google Vision API。我们有许多由用户计算机生成和填写的表格。像医疗报告和登记表一样。 我们需要处理这些图像并从中获得个性。我已经尝试过Google Vision API,并且在计算机生成表单的情况下也能很好地工作,但是手工填写会产生问题。就像如果用y轴上方的数据填充表格,单词将被视为上一行/下一行。就像下面的输出一样
Study Contact Name:
Test
预期
Study Contact Name: Test
代码参考:https://cloud.google.com/vision/docs/detecting-text#vision-text-detection-java
有没有办法将其放在一行中,或者了解它是否属于该行?
在这种情况下还可以使用其他API吗?
答案 0 :(得分:0)
“任何其他在这种情况下都可以提供帮助的API”,如果您指的是OCR API,我认为手写文档的效果不佳,或者至少不比Google更好。
无论如何,我个人使用的一种可能的方法是创建自己的方法来影响一行字母/单词。
这样,您可以控制单词之间的同一条“线”可以视为多少距离。
Google API为您提供了每个已识别字母的X和Y位置信息。因此,您可以简单地遍历所有字母或单词,如果它们在Y位置> =或<=到(例如2像素),则将它们包含在同一行中。
答案 1 :(得分:0)
我对你来说可能为时已晚,但既然我带着类似的问题来到这里,我将分享我的发现: