数字音频基本原理| 天尔微型电声- 专业电声器件

· 2008/10/04 · · |

众所周知,声音是一种能量波,因此也有频率和振幅的特征。人耳能听到声音正是由于空气的振动令耳膜产生共振。振动的频率便是声波的频率,一般人耳的接受能力是20Hz到20000Hz,低于此范围的叫次声波,高于此范围的叫超声波。从音乐上来讲,不同的音调的频率是不一样,比如do、re、mi就是三种不同的频率。那么,不同的乐器发出相同音调的声音也就是频率一样,但我们却可以听出它们的不同,这又是怎么回事呢?这就是音色的差别,事实上相同音调不同乐器的声音之间的差别并不在频率上而是在波形上。

任何真实存在的声音,哪怕它只是蛐蛐儿的一声鸣叫,几乎都像是交响乐队的产品,它们似乎都是许多乐器同时演奏的结果。简单的说,一般的声音都等同于大大小小许多音叉各种正弦波合成的声音,它们就是复合波。实际上小提琴、大提琴、黑管、风琴、长笛、小号、定音鼓、钹、钗、沙锤等所以音质不同,就是因为它们的复合波的组成不同。比如人的心电图和脑电图就是xx不同的波形,同样频率的两组声波,周期相同,但在一个周期内的形状不一样,人耳听到的声音就会有很大的差别。

音箱中的发声原理其实很简单,就是通过电磁感应现象,将变化的电流转为盆膜的振动,从而产生空气的振动,接着人耳就会听到声音了。因此,只要有频率在人耳能够接受的范围之内并且足够强大的电流输入,人耳在足够近的声场距离内就可以得到声压,也就是听到声音。当然在多媒体有源音箱上除了喇叭还有电流放大和功率放大等器件,这些器件的大致作用就是将输入的电流和功率放大至喇叭可以发出声音的范围内。电脑上的声卡的作用就是将CPU传来的数字音频数据经过缓冲、处理、分流、转换等操作再通过音频接口将载有模拟信号的电流传送到音箱,令其发声。

现在对于电声的原理因该比较清楚了,爱迪xx明留声机正是利用了这个原理,在唱片上刻下声波的曲线,再用唱针沿着波线划过产生振动,并用电流放大就可以放出声音了。这其实就是现在所说的模拟信号,也就是用一条光滑的曲线来表示声波,但计算机数据只能用1和0表示,那么计算机又该如何表示声波呢?

把模拟音频转成数字音频,在电脑音乐里就称作采样,其过程所用到的主要硬件设备便是模拟/数字转换器(Analog to Digital Converter,即ADC)。采样的过程实际上是将通常的模拟音频信号的电信号转换成许多称作“比特(Bit)”的二进制码0和1,这些0和1便构成了数字音频文件。如下图,图中的正弦曲线代表原始音频曲线;填了颜色的方格代表采样后得到的结果,二者越吻合说明采样结果越好。

数字音频基本原理

上图中的横坐标便是采样频率;纵坐标便是采样分辨率。图中的格子从左到右,逐渐加密,先是加大横坐标的密度,然后加大纵坐标的密度。显然,当横坐标的单位越小即两个采样时刻的间隔越小,则越有利于保持原始声音的真实情况,换句话说,采样的频率越大则音质越有保证;同理,当纵坐标的单位越小则越有利于音质的提高,即采样的位数越大越好。

有一点请注意,8位(8Bit)不是说把纵坐标分成8份,而是分成2^8=256份;同理16位是把纵坐标分成2^16=65536份;而24位则分成2^24=16777216份。现在我们来进行一个计算,看看一个数字音频文件的数据量到底有多大。假设我们是用44.1kHz、16bit来进行立体声(即两个声道)采样,即采样成标准的CD音质(也称作红皮书音频)。那么就是说,一秒钟内采样44.1千次,每次的数据量是16×2=32bit(因为立体声是两个声道)。

而大家知道,一个字节(Byte)含有8个位(Bit),那么一秒钟内的数据量便是44.1k×32bit /(8bit / Byte)=176.4 kByte。一个汉字在电脑里占用两个字节,那么176.4kB的空间可以存储 176.4k / 2=88200个汉字,也就是说一秒钟的数字音频数据量与近九万个汉字(一部中篇小说)的数据量相当。由此可见,数字音频文件的数据量是十分庞大的。

也许有人会问,为什么要把CD音质的采样频率规定成44.1kHz而不是其他的频率呢?44.1kHz意味着每秒采样四万多下,这会不会太多了点呢?究竟每秒采样多少次才算合理呢?请看下图。图中,上半部分表示原始音频的波形;下半部分表示录制后的波形;红色的点表示采样点。

大家可以发现,上下波形之所以不吻合,是因为采样点不够多,或严谨一点说,是采样频率不够高。这种情况,我们称之为低频失真。

一个常见的低频失真的例子便是电影上车辆行驶时车轮转动的情况(一个典型的“马车轮”效应的例子)。你也许早已发现,飞快转动的车轮有时看起来似乎是静止不动甚至会向反方向转动(类似的情况也发生在直升飞机的翼片和螺旋浆上面)。 关于合理的采样频率这一问题在Nyquist(奈奎斯特)定理中早已有明确的答案:要想不产生低频失真,则采样频率至少是录制的{zg}频率的两倍(上图中,采样频率只是录制频率的4/3倍)。这个频率通常称作Nyquist极限。

在正常的音乐中,{zg}的音符也只不过7kHz-8kHz,这似乎意味着16kHz的采样频率便已足够。其实这7、8kHz仅仅表示基音的音高,还有大量的泛音未包括在内,故用这种方法来定采样频率是十分不科学的。其实,所谓“不失真”,换句话说便是“人们听不到失真”。人类的听力范围是20Hz-20kHz,所以采样频率至少得是20k×2=40kHz便可保证不产生低频失真。CD音质的44.1kHz正是这样制定出来的(略高于40kHz是为了留有余地)。按照Nyquist定理,这样的采样频率可以保证即使是22.05kHz的超声波也不会产生低频失真。而音频的工业标准所规定的48kHz采样频率(如DAT,Digital Audio Tape)则有更高的Nyquist极限,满足更苛刻的要求。

那么数字音频又是如何播放出来的呢?首先,将这些由大量数字描述而成的音乐送到一个叫做数/模转换器(Digital to Analog Converter,即DAC)的线路里。它将数字回放成一系列相应的电压值,然后通过有助于稳定的保持线路,{zh1}将信号由低通滤波器输出。这样,比较平缓的具有脉动电压的模拟信号可继续发送至放大器和,电流经过放大再转变成声音。

相对应的模拟音频又是怎样录制与播放的呢?首先,声波通过麦克风,空气分子的振动转变为电信号的波动(数字录音也必需经过这一步)。录音磁头的电磁铁根据通过电流的大小而产生大小不同的磁场,磁场的变化情况会相应的记录在磁带上(实际上是磁带上的磁粉排列发生了变化),这样便完成录音过程。播放时,放音磁头读出印记在磁带上的磁场大小变化的情况(即磁粉的排列位置),并转变为相应的电信号。之后的情况与数字音频的播放xx类似,即这些波电信号(模拟信号)继续传送至放大器和,电信号重新转变为声音(即空气分子的振动)。
说到这里,我们可以理解数字录音的好处了。首先,录制好的音乐是以数字来储存的,而数字的传输错误率是相当低甚至是可以避免的,所以录制好的音乐可以多次复制而效果不减(这在制作过程中十分重要)。而模拟信号则每传输一次就失真一次。而且,模拟录音的本底噪音很大,要想满足严谨的录音要求则需要购买复杂而又昂贵的设备,操作也十分繁琐。况且,处理数字信息是电脑的拿手好戏,只需面对显示器,所有的工作都可以弹指一挥间完成。正是基于以上这些优点,使得建立一个家庭工作室(Home Studio)显得非常具有吸引力,并且技术上也成为可能。

标签:··

郑重声明:资讯 【数字音频基本原理| 天尔微型电声- 专业电声器件】由 发布,版权归原作者及其所在单位,其原创性以及文中陈述文字和内容未经(企业库qiyeku.com)证实,请读者仅作参考,并请自行核实相关内容。若本文有侵犯到您的版权, 请你提供相关证明及申请并与我们联系(qiyeku # qq.com)或【在线投诉】,我们审核后将会尽快处理。
—— 相关资讯 ——