我将从一个小介绍开始 - 只是为了让你知道我的想法背景:)
我正在学习MIR,我想使用深度学习来操作midi文件。 我的想法包括处理录制数据 - 所以它必须是mp3 / wav输入数据。
经过大量的研究和思考,我认为我将基于midi输入和输出构建我的神经网络。
ok..so..let' s继续解决问题: 我需要将mp3文件转换为midi文件。
我(在很多朋友的帮助下:D)想到的是,使用LSTM自动编码器进行序列学习, nn将获得mp3输入和midi输出,经过一些迭代后它应该找到转换的最佳功能,并且使用该模型我将转换从我的程序记录的声音文件 - 所以我可以从他们的midi文件中学习。
该解决方案(对我来说)的问题是在每个媒体文件的numpy数组之间进行同步。
我需要为每个媒体提供相同的时间戳,以便它可以了解它们之间的转换。
很抱歉没告诉我,我在theano平台上使用python和keras。
非常感谢助手! 祝你有美好的一天! :)