我的任务是从wav文件中找到音符,然后将所有内容写入文本文件,就像MAPS数据集中一样(声音的开始,持续时间,音符名称)。在需要弹钢琴之后,必须使用神经网络,该网络已经找到了训练有素的人。问题在于将该网络引入算法中,保存网络网络输出数据。算法:wav文件,它产生一个图片频谱图,然后将其分割成一个窗口,进行扫描,每次扫描的结果是一个88值的向量,钢琴键的数量,几个相邻窗口可能发出相同的音符,如何使用上述结构将这些向量显示为测试文件?告诉我,您通常如何处理音乐以匹配网络的输入和输出?您需要了解错综复杂的内容,文学和思想,有关该主题的任何信息都很重要