音频基础概念

语音、音乐以及自然界的各种声音，都是由物体振动产生的。

无论是声带、乐器的弦还是击打面，当它们振动时，会引起周围空气质点的振动。由于空气具有惯性和弹性，空气质点相互作用，导致周围空气交替产生压缩和膨胀，并向外传播形成声波。

在空气中传播的声波是纵波，在纵波中，介质分子的振动方向和波前进的方向平行。

1.声音的参数

1.1 频率

频率是某一质点以中心轴为中心，1s内来回振动的次数（声波周期），单位为赫兹（Hz）。

在声学中，频率一般指正弦波信号的频率。由于任何信号都可以认为是各种频率的正弦波叠加而成的，或者说任何信号都含有正弦波的各种频率成分。

声波的频率范围十分宽泛，为：

10^{-4} - 10^{12} Hz

我们可以将频率分为：

次声：10^{-4} - 20Hz\\ 可听声：20-2\times10^4Hz\\ 超声：5\times10^8-10^{12}Hz

其中可听声为人耳可接收声音的频率范围。

当然大多数声源发出的声音都不是单一频率的纯音（单一频率的声音），而是由多种频率成分组合而成的复合音，如音乐、噪声、自然语音大多都是复合声。

复合声中有低频声和高频声，一般把频率低于60Hz的声音称为超低音，把60~~200Hz的声音称为低音。把200~~1000Hz的声音称为中音，把1000~5000Hz的声音称为中高音，把5000Hz以上的声音称为高音。

1.2 频谱

复合音是由频率不同、振幅不同、相位不同的正弦波叠加而成，它也是一种周期性的振动波。任何复杂的周期性振动波都可以分解成多个谐波，这称为傅里叶定律。把复杂的振动波分解成各种频率成分谐波的过程称为傅里叶分析，也称频谱分析。

在复合音中频率最低成分（分音）称为基音。频率与基音成整倍数的分音称为谐音。

声音（复合音）的频谱是用基音、谐音数目、各个谐音幅度大小及相位关系来描述的。简而言之，各种乐器都有特定的音色，每个人的声音都有自己的特色。

1.3 声压与声压级

对于空气介质，当没有声波时，空气处于平衡状态，其静压强一般等于大气压。当有声波传播时，介质各部分能产生压缩和膨胀的周期性变化。声压是指声波传播时介质中心的压强与无声波传播时的静压强之差。声压的大小反映了声音振动的强弱，也决定了声波的振幅大小。

在一段时间内瞬间声压对事件取平方平均数（均方根值），称为有效声压。一般所称的声压值得就是有效声压。

人们对声音的强弱的主观的感受并不正比与声压的绝对值，而是大致正比与声压的对数值。声压级用符号Lp表示，单位为分贝(dB)，公式如下所示：

L_p=20lg\frac{p}{p_{ref}}

其中p为有效压值；p_ref为基准声压，一般取2x10^-5Pa,这个数值是人耳能听到的1kHz声音的最低声压。

当某声压为基准声压的10倍时，声压级为20dB。

当某声压为基准声压的100倍时，声压级为40dB。

当某声压为基准声压的1000倍时，声压级为60dB。

当某声压为基准声压的10000倍时，声压级为80dB。

1.3 响度

响度是人耳对声音强弱的主观感受程度。在客观度量中，声音的强弱是由声波的振幅（声压）决定的。但是，响度和声波的振幅并不完全一致，对于同一强度的声波，不同的人听到的效果并不一致。

为了对响度进行计量，定义响度的单位为宋(sone)。国际上规定：频率为1kHz的纯音在声压级为40dB时的响度为1sone。

一般人耳对声压的变化感受是，声压级每增加10dB，响度增加1倍，因此响度与声压级的关系如下：

N=2^{0.1(L_p-40)}

其中N为响度，单位为sone;Lp为声压级，单位为dB。

人耳对声音的强弱的主观感受还可以用响度级来表示，这一点和声压级类似。响度级的单位为方（phon），响度级和响度的换算公式如下所示：

L_N=40+10log_2N

其中L_N为响度级，N为响度。

当1kHz纯音的声压级为0dB时，响度级为0phon。声压级为40dB时，响度级为40phon，响度为1sone。也就是说从响度和响度级的定义可知，响度级每增加10phon,响度增加1倍。关系表如下所示：

响度/sone	1	2	4	8	16	32	64	128	256
声压级/dB	40	50	60	70	80	90	100	110	120
响度级/phon	40	50	60	70	80	90	100	110	120

2.音频数字化

音频信号数字化就是将连续变化的模拟信号转换成离散的数字信号，一般需要完成采样、量化、编码三个步骤。

采样是指每隔一定时间间隔的信号样本值序列代替原来在时间上连续的信号们，也就是在时间上将模拟信号离散化。

量化是用有限个幅度值近似原本连续变化的幅度值，把模拟信号的连续幅度变为有限数量、有一定间隔的离散值。

编码是按照一定规律，把量化后的离散值用二进制码表示。

上述数字化的过程又称脉冲编码调制，一般是有数模转换来实现的。

2.1 采样

模拟信号不仅在幅度取值上是连续的，而且在时间上也是连续的，即每个时刻都存在一个信号幅度值与之对应。

需要在时间上进行离散化，即在时间上用有限个采样点来代替连续无限的坐标位置。

采样（Sampling）就是从一个时间上连续变化的模拟信号中取出若干个有代表性的样本值，来代表这个连续变化的模拟信号。也就是说每隔一定的时间间隔，抽取信号的瞬间幅度值（样本值）。采样的时间间隔称为采样周期；每秒内采样的次数称为采样频率。采样后所得到的一系列在时间上离散的样本值称为样值序列。

2.2 量化

采样把模拟信号变成了时间上离散的样值序列，但每个样值的幅度仍然是一个连续的模拟量，因为还需要对其进行离散化，将其转换为有限个离散值，才拿最终用数码的方式来表示幅度值。

从数学角度来看，量化就是把一个取连续值的无限集合*{x}，通过变换Q映射到一个只有L个离散值的集合{y_k}*,k=1，2，3，...，L。

2.3 编码

模拟信号经过采样、量化后的信号还不是数字信号，需要将其转换为数字编码脉冲，这一过程称为编码。最简单的编码就是二进制编码，也就是使用二进制码表示已经量化后的样值。

MSB：最高有效位（Most Significant Bit）
2SB：第二有效位
3SB：第三有效位
...
LSB：最低有效位（Least Significant Bit）

3.采样率

数字数据是用于重新创建原始波形，生成的电信号被放大并送至扬声器或者耳机等设备进行播放。但通过这个数字化后的音频只保存有原始模拟波形的近似值，如下图所示：

你们也就意味着当播放录音时，它和原始的声音不完全一致，且质量不一定那么好。那么我们为了提升录音质量可以更频繁的采样原始模拟，也就是提高采样率。

可以看到这个声波会以更高采样率编码的数据重新创建，它也是原始模拟波更好的近似值。如果您想采样数加倍，那么可以是的录制的声音质量加倍，但存储的数据量加倍产生更大的音频文件。

采样率（Sample Rate）是以每秒采样数进行测量，单位为赫兹。根据奈奎斯特采样定理，要完整地恢复信号，（更严格地）采样频率还必须大于信号中最高频率的两倍。

如果采样率太低，重建的波将会与原始的模拟波几乎没有相似之处，它将无法完全捕获声音，为了捕获到所有高频声音必须对波进行每个周期至少采样两次。

典型的采样率为每秒8000次，即8000赫兹，用于电话呼叫或者互联网语音数据传输。

音频CD的语音质量需求会比语音通话高很多，采样率为每秒44100次，即44100赫兹（44.1KHz）

4.位深度

位深度表示对每个样本的响度进行编码的二进制位数。

假设只有三个位来表示每个样本，对原始模拟波进行采样时会出现如下情况：

每个原始值会由于位深的限制，向上或者向下舍去，仅使用三位即可编码的值。也就是说低位深意味着即使在适当高的采样率下，数字音频的质量也会和原始的声音模拟波相差大。如下图所示：

大多数的数字音频的应用程序都使用16位的位深度，每个样本可以有65535个可能值。位深越高，数据量就越多。当然一些录音设备还可能是使用更高的位深如24、32位等。

5.声道

音频声道是同时记录多个位置的声音采样数据，常见的声道有：单声道、双声道、立体环绕（4.1、5.1声道等）

程序会根据排列顺序使用不同的扬声器播放对应的数字音频。

6.音频帧

音频帧（Audio Frame）是音频编码中用于表示一小段音频数据的基本单位。它包含了一定数量的音频样本以及一些必要的元数据，用于描述和处理这些样本。

具体的跨度由编码格式决定。例如，在AAC编码中，一帧通常包含1024个采样点。音频帧的存在主要是为了在音视频同步播放时，能够有效地管理和处理音频数据。

5.总结

麦克风在录音时可以将声音模拟波转换为数字化的模拟电信号。
数字音频的质量取决于每秒的采集样本数（采样率）
数字音频的质量还取决于位深度，即用于对每个样本的响度进行编码的位数。
常见的原始未压缩音频格式为线性脉冲编码调制（Linear Pulse Code Modulation,LPCM）
包装(未压缩音频)文件常有：.WAV 、.AIFF
音频码率是一秒的数据量大小，单位位Mbps，一般的网络音频直播、音频文件的码率在128Kbps，其计算公式如下：

比特率=位深 *采样率*通道数
音频编码格式分为有损编码和无损编码，有损编码：mp3、aac等；无损编码：wav、flac等。

11-1_音频基础概念