如何针对特定语言

时间:2016-10-13 06:37:46

标签: google-cloud-platform google-vision

我对Google Vision API的TEXT_DETECTION感兴趣,它的作品令人印象深刻。但是,当文本是英文时,TEXT_DETECTION似乎只给出了确切的结果。在我的情况下,我想在非常狭窄的环境中使用TEXT_DETECTION,例如在特定语言的广告横幅上检测文本(在我的情况下用越南语)。我可以在我自己的数据收集上训练机器以获得更准确的结果吗?以及如何实现这个?

除谷歌视觉API的TEXT_DETECTION外,谷歌还拥有使用Tesseract依赖关系的谷歌光学字符识别(OCR)软件。众所周知,他们有不同的算法来检测文本。我使用谷歌文档和Google Vision API的TEXT_DETECTION从图片中读取文本(在Vietnamse)。谷歌文档给出了一个很好的结果,但Vision API没有。为什么Google Vision API不会继承Google OCR的优势?

我想更多地谈谈谷歌视觉API文本检测,也许这里有任何Google专家,可以阅读。正如谷歌宣布的那样,他们的TEXT_DETECTION太棒了:“即使这张图片中的文字倾斜且不清楚,OCR也会正确地提取文字及其位置。它甚至会在主持人的T恤上拾取”灯塔“这个词。 ”。但对于我的一些照片,发生的事情真的很有趣。例如this pic,甚至单词“Kem Oxit”在pic的中心都非常大,但是没有被识别出来。或者在this pic中,图片中心的红色文字“HOA CHAT NGOC VIET”也未被识别。文本检测算法一定有问题。

2 个答案:

答案 0 :(得分:2)

您是否尝试过LanguageHints(link to documentation)?

越南语位于supported languages列表中,如果文本始终使用越南语,则应提高文本检测质量。

如果这不会有帮助,您就无法通过提供自己的培训示例来提高文本检测的质量。

答案 1 :(得分:1)

Fematich是对的,目前无法训练Google Vision API的TEXT_DETECTION功能。

关于光学字符识别软件,根据此link,它在Google Vision API中用于TEXT_DETECTION。为了获得更好的效果,请务必验证best practices是否适用于您的图片。 Google文档可能有不同的预处理机制,可以在Google Docs Help Forum上提问。

分辨率为375x500像素时,第一张图像不满足best practices中所述的640x480像素的最低分辨率要求。不过,通过将其重新调整为1024x1365像素,Google Vision API能够检测到“Oxit”这个词。将第二张图像重新调整为OCR建议大小为1024x768像素进行字符识别后,API再次成功检测到“HOA CHAT NGOC VIET”字样。请注意,将来这类问题更适合{{3}因为它可能需要更多细节才能重现您的确切错误。