我一直在谷歌视觉API ,但我有一个问题,我真的不能 解决。这是我正在处理的图片:
在上图中, Google Vision API (也适用于 IBM(Watson)和 Microsft(认知服务))不明白2,99€是可读的东西,因为它不被视为单行,所以 输出几乎是我期望他做的(了解价格 标签)。
如果我使用的是Tesseract,我会使用-psm 7
选项来解决此问题,以强制它将其作为单个文本行读取,但我无法使用这种情况找到这种情况的文档。 Google Vision API。
以前有人做过类似的事吗?我无法弄清楚如何解决这个问题...
答案 0 :(得分:1)
我有一个类似的问题,似乎Vision API可能不适合这类问题。 API没有提供有关找到的文本结构的任何信息(除了发现文本的rectangulkar),反过来也不关心结构。
AFAIK你还无法使用vision API解决这个问题,尽管将来可能会有某种解决方案。
现在有" ImageContext" AnnotateImageRequest的一部分,我希望它将用于你将来要做的事情。