用户将打开相机(通过我的Android应用程序),将其指向他/她的ID,然后模型将识别出这是否就是我们要查找的ID类型。
我已经尝试过像直方图这样的图像比较,但是它不仅如此准确,而且还具有SSIM(结构相似性),但不适合我的情况。如果图像具有相同的像素/矩阵大小,则SSIM起作用。 (根据我的尝试和观察,哈哈)。我为此使用openCV。
因为我希望模型能够识别出清晰的图像,所以物体检测似乎是一种矫kill过正(或者不是?)。
我正在尝试创建图像的一类分类,在该分类中,我的模型应标识一种特定类型的ID(例如护照)。
我搜索了一个类分类(OCC)后,提出了一些类似基于cnn的自动编码器的建议。但是似乎没有足够的资源或教程来创建一个简单的资源。
因此,我正在考虑使用至少10张清晰的图像来显示同一ID的不同细节,这将是我的 CLEAR_ID_CLASS 。
然后,我将添加相同的10张清晰图像(倾斜,旋转,缩小,放大等),并将其标记为 NOT_CLEAR_ID_CLASS 。
10张图像只是神经网络的一个很小的数据集,我不完全知道如果模型过拟合会对模型造成什么影响。我的问题是这项工作有效吗?我是否在寻找正确的方向来实现自己的目标?还是有办法实现我的目标?
我问是因为这可能会花费一些时间(训练模型),并且我不想浪费时间只是想知道这是行不通的。