应用错误收集

时间：2016-08-10 09:31:34

标签： ocr tesseract google-vision

我一直在谷歌视觉API ，但我有一个问题，我真的不能解决。这是我正在处理的图片：

在上图中， Google Vision API （也适用于 IBM（Watson）和 Microsft（认知服务））不明白2,99€是可读的东西，因为它不被视为单行，所以输出几乎是我期望他做的（了解价格标签）。

如果我使用的是Tesseract，我会使用-psm 7选项来解决此问题，以强制它将其作为单个文本行读取，但我无法使用这种情况找到这种情况的文档。 Google Vision API。

以前有人做过类似的事吗？我无法弄清楚如何解决这个问题...

答案 0 :(得分：1)

我有一个类似的问题，似乎Vision API可能不适合这类问题。 API没有提供有关找到的文本结构的任何信息（除了发现文本的rectangulkar），反过来也不关心结构。

AFAIK你还无法使用vision API解决这个问题，尽管将来可能会有某种解决方案。

现在有＆＃34; ImageContext＆＃34; AnnotateImageRequest的一部分，我希望它将用于你将来要做的事情。