我要比较两个数据集,1)作为784维矢量的手写数字0-9、28x28像素灰度图像,以及2)阿拉伯数字的口语记录(“零”,“一个” ”等)作为预先提取的音频功能MFCC的数组给出。每个记录的长度都是可变的,形状为数组(N,13),N =帧数,13 = MFCC特征数。
要训练,我有一些数据集,包括:
在match_train的数组中,索引j处有一个值,该值指定write_train的第j行的图像和speakn_train的第j行的音频是否引用相同的数字。
目标是获得尽可能低的错误率准确性。
我应该如何解决这个问题?