我有两个不同的数据数组,一个是具有维度值(N,784)的灰度值(0-255)的数组。另一个是具有MFCC值的数组,它们是具有可变长度和13个值的嵌套数组。
此外,火车和测试数据没有标签,我需要开发一个模型来查看图像数据和音频数据是否描述了同一对象。我唯一的指标是一个布尔数组,它告诉我训练图像数据是否与训练音频数据匹配。
由于目前为止我仅在单一数据集上构建模型,因此我不确定如何解决此问题。到目前为止,我已经尝试过:
将所有数据加在一起,对其进行规范化并将可变长度MFCC填充为零,然后将布尔值用作MLP中的标签。
从数据集中删除所有错误的条目,并使用灰度数组作为CNN中的标签。
我想我不太确定我实际上要解决的问题,只是掌握事物。我绝对不是在寻找任何编码示例,而是在寻找针对Google搜索的一般方向。