应用错误收集

我要比较两个数据集，1）作为784维矢量的手写数字0-9、28x28像素灰度图像，以及2）阿拉伯数字的口语记录（“零”，“一个” ”等）作为预先提取的音频功能MFCC的数组给出。每个记录的长度都是可变的，形状为数组（N，13），N =帧数，13 = MFCC特征数。

要训练，我有一些数据集，包括：

在match_train的数组中，索引j处有一个值，该值指定write_train的第j行的图像和speakn_train的第j行的音频是否引用相同的数字。

目标是获得尽可能低的错误率准确性。

我应该如何解决这个问题？