我试图了解音频文件中的原始数据是什么以及如何获取该数据。我想获取数据并对其进行分析,看看我是否能够创建一个程序,可以识别歌曲中的模式,如嘻哈歌曲,在合唱中找到相同的节拍。在我的脑海中,我认为如果数据是整数形式,这可能是一个可行的任务。
我为此查找了很多教程,但是所有教程都使用其他库,或者没有以我理解的方式解释它(很可能是我的问题的来源)。
我想知道是否有人可以帮我理解一些事情。
1)。在MP3文件中,实际存储在文件中的内容。它是一个整数,它告诉radio / amp / audioPlayer一个频率,另一个振幅的整数等等...(过度简化因为我不知道音频文件中存储了什么其他数据)。
2)。如果它以整数格式存储,有没有办法读取整数并进行分析。如果它没有以整数格式存储,它是如何存储的,有没有办法将它转换为整数格式?
3)。在像this之类的音频文件的可视化表示中,似乎更清楚的是什么。看起来频率是音频表示圆圈的位置,振幅是跳跃的高度。这是正确的吗?或者它只是出现这种方式而且我对它的理解不正确。
4)。这项任务比我想象的更难吗?考虑到我没有找到任何关于如何做的好的解释或教程,我对这将是多么容易持怀疑态度。
(对不起,如果这句话措辞不好,堆叠上的第一个问题,我只是文盲:^)