ML模型,用于识别图像中的数值

时间:2019-05-27 16:22:06

标签: python tensorflow text-recognition

我正忙于开发需要实时设备上文本识别的android应用程序,该应用程序也应脱机工作,因此无法选择云识别。我目前正在使用Firebase ML Kit(在设备上)执行文本识别任务。我还使用Camera Previewer实时处理来自相机的图像,每个帧都需要进行分析。

ML Kit非常适合检测纯文本(即使是非常小的细节),但是我面临的问题是检测数字值。

拍摄以下图像: Image To Scan

我可以毫无问题地检测到该图像上的所有文本,但是由于某些原因,数值非常不准确。我将得到以下结果: 21至216至2180。

我已经对MNIST上的手绘数字进行了一些研究,但不确定100%是否适用于我的情况,因为这不是手绘的,而且其中包含的细节远不止数字。我还尝试过缩放图像,灰度(耗时极长),消除图像噪声等。

以上某些尝试提高了准确性,但是为获得“实时”体验而花费了很多时间,而其他尝试有时使这种体验更加不准确。

我要实现的目标是实现另一种类型的“文本识别”或以可以更加准确地检测数值的方式修改图像。我本来以为,因为数值是“最大文字”的99%,所以检测该数值应该没有问题,但似乎字体大小的差异会使事情复杂化。

对于这种情况的任何建议将不胜感激。

0 个答案:

没有答案