用什么类型的神经网络架构将声音映射到其他声音?神经网络非常适合学习从序列到其他序列,所以声音增强/生成似乎是它们非常流行的应用(但不幸的是,它不是 - 我只能找到一个(相当古老的)洋红色项目处理用它,以及其他2篇博客文章)。
假设我有足够大的输入声音/输出声音相同长度的数据集,我将如何格式化数据?也许在光谱图上训练CNN(类似于cycleGAN或pix2pix),也许可以使用WAV文件中的实际数据并使用LSTM?是否有其他类型的奇怪架构没有人听说过这对声音有益?请帮帮我!
答案 0 :(得分:0)
对于做类似事情的其他人 - 答案是使用快速傅里叶变换将数据置于可管理状态,然后人们通常使用RNN或LSTM来处理数据 - 而不是CNN。