声音的基本单位?

时间:2010-04-23 02:51:06

标签: audio

如果我们认为计算机图形是图像合成的艺术,其中基本单位是像素。

声音合成的基本单位是什么?

[这与编程有关,因为我想通过计算机程序生成这个。]

谢谢!

11 个答案:

答案 0 :(得分:21)

基本单位是样本

在WAVE文件中,示例只是一个整数,指定将扬声器头移动到的位置。

采样率决定了新样本输入扬声器的频率(我不完全确定这部分是如何工作的,但它确实首先转换为模拟信号)。样本通常一个接一个地放在文件中。

当您绘制x轴为时间且y轴为sample_value的所有样本时,您可以看到波形。

在波形文件中,样本(理论上)可以是0-65535之间的任何位大小,在整个波形文件中保持不变。但通常使用16或24位。

答案 1 :(得分:7)

计算机图形也可以将矢量形状作为基本单位,而不仅仅是像素。通常,矢量图形是通过计算机工具生成的,而捕获的数据往往表现为像素网格(对应于相机或其他捕获设备中的传感器阵列)。显然,这些分类之间存在相当大的交叉。

同样,有采样(如.WAV)和生成(如.MIDI)形式的计算机音频。在采样的情况下,最小的单位是单个样本。就像亮度中的像素阵列一样,x和y维度聚集在一起形成图像,响度和时间维度的样本阵列聚集在一起形成声音。在生成的情况下,它将更像是在特定语音中呈现的单个音色,就像矢量图形具有路径用特定的< EM>纹理

答案 2 :(得分:2)

像素可以具有值并以数字位图samples进行编码。相同的属性适用于声音和数字音频samples

像素是一种物理设备,一次只能渲染3个频率(红色,绿色,蓝色)的振幅。扬声器是一种物理设备,可以一次渲染各种频率(~40,000)的幅度。样本的比特分辨率(用于存储样本值的比特数)主要决定了可以呈现多少种颜色/色调 - 物理回放设备的保真度。

此外,由于像素的图案可以被编码或压缩,因此大多数声音样本的图案也被编码或压缩(或两者)。

答案 3 :(得分:1)

信号处理的基本单位(其中音频是一种特殊情况)将是样本。

您需要采样信号的频率取决于波形中存在的最大频率。采样定理表明,通常以信号中存在的最大频率的两倍频率进行采样即可 http://en.wikipedia.org/wiki/Sampling_theorem
人耳对高达20kHz左右的声音很敏感(频率随着年龄的增长而下降)。这就是为什么CD上的音乐以44kHz采样。

将音乐视为由个别频率组成通常更有用 http://www.phys.unsw.edu.au/jw/sound.spectrum.html
大多数声音分析和创作都是基于这个想法。

相关概念:
心理声学:人类对声音的感知。与现代声音压缩技术相关,如mp3 傅立叶级数:复杂波形由各个频率组成。

答案 4 :(得分:1)

我会说声音合成的基本单位是正弦波。但是你对合成的定义可能与音频人所说的声音合成有所不同。声音合成是使用声音的基本组成部分创造声音。

使用正弦波,我们可以使用诸如减法合成,加法合成或FM合成等多种技术来合成声音。

傅立叶理论指出,每个声音都是不同相位,频率和振幅的正弦波的总和。

好的,那么我们如何在计算机上表示正弦波?好吧,使用由函数生成或从表中读取的'samples'缓冲区(数组)生成正弦波。相同的技术适用于在计算机上捕获的任何声音。

'样本'通常表示为介于-1和1之间的数字,它与给定时刻的声音幅度直接相关。以16位深度记录的典型声音将具有65536(2pow16)个可能的幅度值。通常,在录制时,将以每秒44.1k的声音捕获样本。这称为采样频率,或简称为采样率。

从您的计算机播放后,每个样本都将通过数字到模拟转换器,并在您的电脑扬声器上产生振动,从而使您的耳朵能够完成录制的声音。

答案 5 :(得分:0)

声音可以表示为几个不同的单位,但合成/计算机音乐中最常见的是decibels (dB),这是幅度的相对对数度量。具体来说,它们通常与音频系统的最大振幅有关。

在“现实生活中”测量声音时,单位通常为A-weighted分贝或dB(A)。

声音的频率(即其音调)是其随时间的幅度,或者在数字世界中,其幅度超过样本。每单位实时的样本数称为采样率;传统的高保真系统的采样率为44 kHz(每秒44,000个样本),合成/记录软件通常支持高达96 kHz。

数字域中的所有声音都可以表示为波形,X轴表示时间(或样本数),Y轴表示振幅。

答案 6 :(得分:0)

波的频率和幅度构成声音。 这是一个基调。 音乐或者大多数噪音是由多个同时声波叠加在一起的复合物。

据说音乐的合成是一个很大的领域。

答案 7 :(得分:0)

位图图形基于对2D空间中的光的幅度进行采样,其中每个样本被数字化为给定的比特深度并且经常在不同的比特深度处被转换为对数表示。样品总是正的,因为你不能比纯黑色更暗。这些样本中的每一个都称为像素。

录音通常基于对麦克风处声压的大小进行采样,其中采样以恒定的时间间隔进行。这些样本在完美沉默方面可以是正面的或负面的。大多数情况下,这些样本不会转换为对数,即使声音以对数方式被感知,就像光一样。没有特殊术语可以引用这些样本,因为有像素

其他人提到的Bels和Decibels在测量峰值或平均声级时非常有用。它们用于描述各个声音样本。

您可能还会发现,了解声音文件格式与图像文件格式的比较非常有用。 WAVE是一种特定于Windows的未压缩格式,类似于BMP。 MP3是一种类似于JPEG的有损压缩。 FLAC是一种类似于24位PNG的无损压缩。

答案 8 :(得分:0)

如果计算机图形是二维空间中的彩色点,表示三维空间,则声音合成是在表示音乐事件的时间内定期划分的振幅值。

如果你希望你的结果听起来像音乐(大多数人喜欢的音乐类型),那么你要么会使用一些标准的合成技术,要么浪费几十年的时间从​​头开始重新制作它们。

最基本的技术是加性合成,其中各个元素是正弦振荡器的频率,幅度和相位;减法合成,使用滤波器系数和复杂的输入波形;频率调制合成,您可以使用调制深度和调制阶段的速率;粒状合成,其中短的(百分之一到十分之一秒)包围的录制声音或人造波形被组合成大量的数字。实践中的每一个都使用在音符过程中演变的参数,通常您会将各种技术的元素混合到一个更大的乐器中。

我推荐this book,虽然它没有许多概念的数学,但它至少为所使用的概念奠定了基础,并对这些技术给出了很好的概述。

你不会浪费你的时间去做样品在实践中做音乐,而不是浪费你的时间逐像素地渲染3d(换句话说,如果为其他人制作工具,你可以去样品如果你对制作音乐的任务很感兴趣,那就用它制作音乐了。

答案 9 :(得分:-1)

可能是信封。音调/音符的形状描述为:攻击衰减持续释放

答案 10 :(得分:-2)

字节或字,取决于声音的位深度。