Google Vision API无法识别个位数字

时间:2018-03-20 14:12:44

标签: google-cloud-platform ocr google-cloud-vision text-recognition

我有一个项目使用Google Vision API DOCUMENT_TEXT_DETECTION来从文档图片中提取文字。

通常,API在识别单个数字方面存在问题,如下图所示:

enter image description here

我认为问题可能与某些噪声消除算法有关,它将孤立的单个数字识别为噪声。有没有办法在这些情况下改善视力反应? (例如管理噪声阈值或其他参数)

在其他时候,Vision会将数字与字母混淆:

enter image description here

但如果我指定为参数languageHints =' en'或者' mt'这些数字被ocr忽略。有没有办法强制识别数字或拉丁字符?

1 个答案:

答案 0 :(得分:0)

不幸的是,我认为Vision API针对频谱的两端进行了优化-一端为密集文本(DOCUMENT_TEXT_DETECTION),另一端为任意文本(TEXT_DETECTION)。正如您在评论中指出的那样,常规TEXT_DETECTION对于这些零散的单个数字效果更好,而DOCUMENT_TEXT_DETECTION在整体上效果更好。

据我所知,目前尚无计划以单一方式涵盖这两个方面,但将来可能会有所改善。

我认为还有其他要求对您要检测的内容进行微调和提示(例如herehere),但这似乎不是可用。也许将来,您将能够在图像中找到更多的文本格式提示(例如电话号码,个位数等)。