我想知道单个音频数据样本(未压缩的PCM)代表什么。
这是一个数字,但这个数字到底是什么以及如何将其转换回音频?
例如,如果是4位样本,0表示绝对静音,15表示最大音量吗?
如果是音量,我们谈论的频率是多少?如何存储有关频率的信息?
在歌曲中,我们可以同时听到各种乐器(频率),这意味着每个频率都以某种方式存储在单个样本中。怎么做的?
答案 0 :(得分:2)
音频只是随着时间的推移左右摆动的曲线。在给定的时间点,样本是曲线高度的度量。沉默是指当曲线没有摆动时...它只是平坦的...在零值处,样本值为0(更准确地说是从最大到最小的范围的中间值)...当曲线达到其最大高度时向上或向下延伸音频是最响亮的
归一化的概念很重要......曲线值的绝对范围(最大值上升或下降)是任意的...可以是任何东西......让我们说最大值是15,最小值是0 ...记得沉默是没有摆动,所以最大上/下静音的中间约为7
曲线可以编码成任意数量的位...这大致映射到你将曲线切成多少条水平线...更多线条更多位,因此曲线高度样本值的准确性更高
A sin or cos curve被认为是纯音... Joseph Fourier证明了任意曲线(音频或其他)可以以(A)各种音量(最大上/下)的设定sin曲线的形式存储(B)各种频率(C)各种相位偏移......有趣的是,这种变换在任一方向上起作用:从任意形状的曲线到上面的一组(A / B / C)或从一组(A / B /) C)回到合成任意形状的曲线(这是音频合成器的工作方式)
关于频率存储的信息被烘焙成曲线形状...它关于曲线摆动/向下的频率...从下方到中线以上需要很长时间的懒惰摆动是低频率。一段紧密间隔的曲线意味着高频尖叫
当一个麦克风记录多个人一次全部说话或者各种乐器都发出自己的声音时,我们有许多同时发出的频率,但录音不知何故才起作用 - 怎么样?想想麦克风内部(或者你的平面eardrum)会发生什么......它的线圈可以被认为是一个平面(一个2D表面),它只会上下滑动......或者只是移动来回......这是一条任意曲线......一条曲线,它在一个时间点具有从最大值到最小值的高度值