Vision API - 强制API来分析不被视为单个文本行的图像

时间:2016-08-10 09:31:34

标签: ocr tesseract google-vision

我一直在谷歌视觉API ,但我有一个问题,我真的不能 解决。这是我正在处理的图片:

enter image description here

在上图中, Google Vision API (也适用于 IBM(Watson) Microsft(认知服务))不明白2,99€是可读的东西,因为它不被视为单行,所以 输出几乎是我期望他做的(了解价格 标签)。

如果我使用的是Tesseract,我会使用-psm 7选项来解决此问题,以强制它将其作为单个文本行读取,但我无法使用这种情况找到这种情况的文档。 Google Vision API。

以前有人做过类似的事吗?我无法弄清楚如何解决这个问题...

1 个答案:

答案 0 :(得分:1)

我有一个类似的问题,似乎Vision API可能不适合这类问题。 API没有提供有关找到的文本结构的任何信息(除了发现文本的rectangulkar),反过来也不关心结构。

AFAIK你还无法使用vision API解决这个问题,尽管将来可能会有某种解决方案。

现在有" ImageContext" AnnotateImageRequest的一部分,我希望它将用于你将来要做的事情。