我正在研究一个非常困难的机器学习问题。我想学习识别手写数字的图像和语音数字的记录是指相同还是不同的数字。 False:图像和记录引用不同的编号,True:图像和记录引用相同的编号。
数据:
每个图像均以784维向量给出,该向量表示28x28像素的灰度图像。像素强度的范围是0(黑色)到255(白色)。 数字语音名称的每个录音(例如“零”,“一个”等,以阿拉伯语发音)都作为一组预先提取的音频特征给出,即所谓的梅尔频率倒谱系数(MFCC)。这些功能可对10毫秒语音帧的特征进行编码。每个记录的长度都是可变的,因此每个示例都以形状数组(N,13)的形式给出,其中N是记录中的帧数,13是MFCC特征的数量。
对于这个问题,我得到了5个数据集:
请注意,没有任何书面数字和语音数字标签。
总而言之:我想创建一个由15000个布尔值组成的数组,指定测试数据中的图像和声音是否匹配。
当前方法:
我尝试实现的一种方法是对语音和书面数据进行聚类,然后训练分类器以查看匹配的聚类。但是,我没有办法检查音频数据中的聚类是否正确。
我正在尝试的另一种方法是将两个数据集组合以馈入MLP。但是,在这里,我不确定如何合并数据。
最后,我还找到了一篇描述结合了混合数据的网络的文章:https://www.pyimagesearch.com/2019/02/04/keras-multiple-inputs-and-mixed-data/
您是否建议继续使用上述方法之一?还是我缺少其他/简单的方法。
提前谢谢!
答案 0 :(得分:0)
一个解决方案是两个运行两个模型。一个识别图像的模型可以是卷积神经网络。您将可以找到几个CNN示例以进行数字识别。
解决方案的第二部分将是使用RNN或任何简单的单词识别库对口号进行分类。您还将找到足够的示例。
最后一个任务是比较两个模型的预测,看看它们是否匹配。为此,请将预测存储到模型列表中,然后使用要在其上使用的任何评估指标。