我正在尝试为双峰情感分析构建一个联合分类器,该分类器将两种模式(音频和视频文件)作为输入。有什么建议,如何将下面提取的音频和视频功能连接起来,以训练基于CNN的深度学习模型?
音频功能:
X_aud = np.asarray(aud_data)
y_aud = np.asarray(aud_labels)
X_aud.shape, y_aud.shape
((1440, 40), (1440,))
视频功能:
X_img = np.asarray(image_data)
y_img = np.asarray(img_labels)
X_img.shape, y_img.shape
((11275, 256, 512, 3), (11275,))