学会识别手写数字图像和记录是指相同还是不同的数字

时间:2019-05-21 10:04:32

标签: python machine-learning deep-learning

我要比较两个数据集,1)作为784维矢量的手写数字0-9、28x28像素灰度图像,以及2)阿拉伯数字的口语记录(“零”,“一个” ”等)作为预先提取的音频功能MFCC的数组给出。每个记录的长度都是可变的,形状为数组(N,13),N =帧数,13 = MFCC特征数。

要训练,我有一些数据集,包括:

  • write_train.npy:具有45,000行和784列的数组
  • write_test.npy:具有15,000行和784列的数组
  • spoken_train.npy:具有45,000行的数组。每行是一个对象 形状(N,13)
  • spoken_test.npy:具有15,000行的数组。每行都是一个形状的对象 (N,13)
  • match_train.npy:具有45,000个布尔值(False或True)的数组

在match_train的数组中,索引j处有一个值,该值指定write_train的第j行的图像和speakn_train的第j行的音频是否引用相同的数字。

目标是获得尽可能低的错误率准确性。

我应该如何解决这个问题?

0 个答案:

没有答案