有多个示例如何构建Tensorflow模型以从图像中识别猫和狗。现在,假设我有与每个图片关联的音频,并且训练了单独的网络以通过声音识别猫和狗。
我想将两个网络的预测馈送到另一层以合并结果并提高最终预测成功率。
我的模型应如何显示?
答案 0 :(得分:0)
创建两个神经网络,给定一对图像音频,将每个值输入到其对应的网络。
在卷积步骤或您要使用的任何方式之后,请按照与普通CNN相同的步骤进行操作,在最后一步中,将数据传递到FNN之前,在展平数据时,请对音频输出进行相同的处理NN。
因此,作为示例,如果一个(展平的)图像的输出具有2048
的形状和音频4096
的形状,则只需将这两者相加,然后使FNN的第一层的总和为这些形状= 6144
。