学习音频信号处理,该如何入门,数字音频信号处理应该学什么_生活知道

1、数字音频信号处理应该学什么数字信号处理就是用数值计算的方式对信号进行加工的理论和技术，它的英文原名叫digital signal processing，简称DSP 。另外DSP也是digital signal processor的简称，即数字信号处理器
数字信号处理的目的是对真实世界的连续模拟信号进行测量或滤波。因此在进行数字信号处理之前需要将信号从模拟域转换到数字域，这通常通过模数转换器实现。而数字信号处理的输出经常也要变换到模拟域，这是通过数模转换器实现的。
《数字信号处理》这门课介绍的是：将事物的运动变化转变为一串数字，并用计算的方法从中提取有用的信息，以满足我们实际应用的需求。
音频方面的国内高质量的理论教材比较少。事实上，音频频率分析一般就是用短时傅里叶分析或者小波分析来做，有时也会要精细的对特定频带的分析，也可以用线性调频Z变换，这些与一般的信号理论是相同的；去噪你应该也在数字信号处理里面学习过各型滤波器，这个方面理论是一样的，只是需要了解音频的构成，比如：各个频率成分对声音各个指标的影响，这些需要更多的积累和零散知识的整理。像国外有些音乐处理的课程，google一下可以找到相关的pdf，网易也有些公开课可以看。
先学无线电，那里会让明白各个频率怎么产生的，有事怎样AD转换的，我有些研究但是不深，我数学不好所以我没能完成最后的编程，学完这些，你再学习电脑 C 语言，我学了两年无线电,半年C语言。希望可以帮到你。书及看一些数字电路维修方面的书，就有。

文章插图
2、关于数字信号处理,如果想深入的好好的学习,有什么入门书籍推荐_百度…有一本《数字信号处理》值得看看，它用208页给出：数字信号处理的三个基本理论，三个基本方法，一个计算技巧，还有数字信号处理的应用典范。
学习数字信号处理，首先要把高等数学学扎实，很多信号处理方法的背后都是数学原理，这里最经典的教材就是同济大学的《高等数学》了；然后应该看信号与系统（可以只看一部分），推荐西安电子科技大学吴大正主编的《信号与线性系统分析》高等教育出版社，清华大学郑君里编的《信号与系统》也很经典，最后可以正式看数字信号处理的书了，这里推荐西安电子科技大学高西全著的《数字信号处理》西安电子科技大学出版社，还有国外奥本海姆的《离散时间信号处理》西安交通大学出版社。希望对你有帮助。

文章插图
3、专业音响系统中音频处理器的使用有什么要求及原则?广播音频信号在处理过程中存在很大的非线性，对音频处理设备来说，它不仅包括对信号的压缩、限制、削波、扩展等处理方式，而且还对音频处理设备安装的位置、引线长短，以及在高电磁场强辐射环境下抗干扰能力等方面都有严格的要求。针对这一情况，我就音频处理器的工作原理、设置方法、放置位置、附加功能等进行探索，以便采用多种有效措施，使音频处理器在今后的工作中发挥更大的作用。
1、专业音响系统中音频处理器对音频处理的要求：
（1）广播发射用的音频处理方式比较复杂，主要是对人耳可听的频率范围加以压缩或限制，在防止它被过调制的同时，又要保证使音频获得最好的信噪比和音频带宽，使音频信号在保持原始节目素材特征的基础上，对其作较大处理，使其成为一个面目全新的、具有特征性的音色，供听众接收欣赏。
（2）在广播节目中，音频信号的响度，是通过减小动态音频中“峰值”对“平均值”的比值（峰/平比值）来提高的。在允许的调制范围内，调整峰值和平均值的关系，避免音频信号处理过程中因削波等带来失真之类的有害副作用，对音频进行处理，使之符合在峰值调制的限制范围内，尽量增加主观感觉的响度效果。
2、音频处理的基本原则：
音频处理设备，主要借助减小动态范围的方法来抑制噪声，其中包括对节目信号的压缩、峰值限制与削波、多频段压缩和频率可选择的限制及均衡功效。压缩的主要目的是缩小节目动态范围，增加声音的密度，尽量使音频信号峰点幅度均匀一致。峰值限制是压缩的一种极端形式，但它压缩比高，起动和复原时间较快，主要目的是保护后面声道的传输不出现过荷。
峰值削波处理是防止因声道处理电路过荷而造成的失真，瞬时地“切掉”超过阀值的高电平波峰部分的处理。峰值限制和削波如能完美匹配，将能在音频节目信号的密度和响度之间，处理好谐波失真和互调失真及信号带宽的负面影响作用问题。
在音频处理过程中将音频频谱划分为几个频段，并对每个频段分别进行压缩和限制。即“多频段压缩和可选择的限制” ，如果设置正确、合理，将会有效消除频谱增益的互调。对于音频处理中的均衡，其作用是一方面利用均衡器来改变音频信号整体频带中相关频率的平衡，另一方面是通过改变其中“敏感频率”的响度来营造某种音响特征，以增加节目的渲染力，另外它还可以用作传输系统中的频响校正。
音频处理器，又称为数字处理器，是对数字信号的处理。
在音响系统中的作用主要为：
1控制处理器的输入电平。一般可以调节的范围在12分贝左右。
2输入均衡：一般调节频率、带宽或Q值、增益。
3输入延时：对输入信号进行一些延时，一般在辅助时候做整体的延时调节。
4极性转换：又分为输入部分和输出部分2种，它可以让信号的极性相位在正负之间转换
5信号输入分配路由选择（ROUNT)：作用是让这个输出通道选择接受哪一个输入通道过来的信号
6带通滤波器：又分为高通滤波器和低通滤波器2种，用来调节输出信号的频率上限和下限
7输出端的限幅器：一般调节启动电平、启动时间和恢复时间。启动电平的调节根据功放和音箱的特性，一般在正常情况下，控制让功放不要出红灯，启动时间和恢复时间根据频率来选择，低频用慢启动快恢复，高频用快启动慢恢复，中频居中。

文章插图
4、怎样对声音素材进行删除.合并,复制处理第5章音频素材制作与处理
本章主要学习音频相关的基础知识，包括模拟音频与数字音频的概念和各自的特点；数字音频所具有的优势；模拟音频转换为数字音频的过程和技术指标；常用的数字音频文件格式；语音合成技术与识别技术的基本原理。本章需要在实验环节掌握Adobe Audition 2.0音频处理软件的基本操作，主要包括录音、编辑和效果处理三个方面。
& 学习指导
1、模拟音频声音是振动的波，是随时间连续变化的物理量。因此，自然界的声音信号是连续的模拟信号，即模拟音频信号。
声波与普通波形一样，可以用三个物理量来描述：振幅、周期和频率。
（1）振幅：振幅是声音波形振动的幅度，表示声音的强弱。
（2）周期：周期是声音波形完成一次全振动的时间。
（3）频率：频率是声音波形在一秒钟内完成全振动的次数，表示声音的音调。
声音具有三个要素：音调、音色和音强。
（1）音调：音调代表声音的高低。与频率有关，频率越高，音调越高。
（2）音色：音色是声音的特色。声音分纯音和复音两种类型。纯音的振幅和周期均为常数；复音是具有不同频率和不同振幅的混合声音，是影响声音特色的主要因素。自然界的大部分声音是复音。在复音中，频率最低的声音是“基音” ，是声音的基调。其他频率的声音是“谐音” 。基音和谐音是构成声音音色的重要因素。人的声音、其它生物的声音以及自然界各种声响都具有自己独特的音色。人们往往是依据音色来辨别声源种类的。
（3）音强：音强是声音的强度。音强与声波的振幅成正比，振幅越大，音强越大。
2、模拟音频的特点
（1）频率范围：模拟音频信号由许多频率不同的信号组成，每个信号都有各自的频率范围，称为“频域”或“频带” 。人耳可听到的声音频率在20Hz-20KHz之间，称为“可听域” 。频率高于20KHz的声音信号称为“超音频信号”，频率低于20Hz的声音信号称为“亚音信号”或者“次音信号” 。多媒体技术所处理的声音信号主要是20Hz-20KHz的音频信号，它包括音乐、语音及自然界的各种声响。另外，不同种类的声源频带是不同的，例如人类语音频带在100Hz -10KHz；高级音响设备频带在20Hz-20KHz；而宽带音响设备的频带在10Hz-40KHz 。总之，频带越宽声音的表现力越好。
（2）模拟音频具有连续性。
（3）模拟音频抗干扰能力差：模拟信号的一个重要的缺点就是噪声容限较低，抗干扰能力差，噪声是影响模拟音频录音质量的重要原因。音频信号幅度与噪声幅度的比值越大越好。音响放大器和扬声器等还原设备的质量能够直接影响重放的音质。音质与音色和频率范围有关。悦耳的音色、宽广的频率范围，能够获得更好的音质。
3、数字音频数字音频是以二进制的方式记录的音频，是模拟音频的数字化表达。
4、数字音频的优势相比模拟音频信号，数字音频信号具有很多优势。
（1）在声音存储方面。模拟音频记录在磁带或者唱片等模拟介质中。模拟介质难保存、易老化，造成音质下降。同时，磁带的存储效率很低，音频录制往往需要大量的磁带介质进行存储，成本很高。数字音频可以文件的形式存储在光存储介质或磁存储介质中，可以实现永久保存，并且存储成低。
（2）在声音处理方面。模拟音频录制难度高，需要尽量做到一次成功，后期处理难度大。数字音频技术在声音处理方面具有极大的优势，在后期的音频处理过程中，可以非常容易地进行多种修正以及加工。
（3）在声音的压缩方面。模拟音频的压缩率很难提高。数字音频的压缩优势明显。例如目前流行的MP3音频格式，压缩率达到10％左右的同时还能保持良好的音质，利于在互联网上传播。
5、模拟音频/数字音频转换模拟音频信号转换为数字音频信号的过程就是对于模拟音频信号的数字化过程。模拟音频信号的数字化过程与普通模拟信号数字化过程类似，需要三个步骤：采样、量化和编码。
（1）采样：采样就是每隔一定的时间间隔T，抽取模拟音频信号的一个瞬时幅度值样本，实现对模拟音频信号在时间上的离散化处理。
（2）量化：量化就是将采样后的声音幅度划分成为多个幅度区间，将落入同一区间的采样样本量化为同一个值。量化实现了对模拟信号在幅度上的离散化处理。
（3）编码：编码就是将采样和量化之后的音频信号转换为“1”和“0”代表的数字信号。
6、模/数转换质量的技术指标影响模/数转换后的数字音频信号质量的技术指标主要包括采样频率、采样精度、声道数和编码算法。
（1）采样频率。采样频率是对声音波形每秒钟进采样的次数。奈奎斯特理论指出：采样频率不应低于模拟音频信号最高频率的两倍，这样才能将数字化的声音还原为原始声音。采样频率越高，声音失真越小，音频数据量越大。
（2）采样精度。采样精度表示对声音振幅的量化精度，即将声音波形的幅度划分为多少个幅度区间。8位量化表示，将声音波形的幅度划分为28个区间。
（3）声道数。声道数表示同一时间产生的声音波形数。如果每次生成一个声波数据，称为单声道；每次生成二个声波数据，称为立体声。立体声表达的声音效果丰富，但存储空间会增加一倍。
（4）编码算法。编码算法的作用一方面是采用一定的格式来记录数据，二是采用一定的算法来压缩数据。压缩比是压缩编码的基本指标，表示压缩的程度，是压缩后的音频数据量与压缩前的音频数据量的比值。压缩程度越大，信息丢失越多、信号还原后失真越大。根据不同的应用，应该选用不同的压缩编码算法。
7、数字音频的存储空间模拟音频数字化过程中的采样频率和采样精度越高，结果越接近原始声音，但记录数字声音所需存储空间也随之增加。未经压缩的音频文件所需的存储空间的计算公式如下：
存储容量（字节）=（采样频率×采样精度）/8×声道数×时间
8、数字音频文件格式数字化音频以文件的形式存储在计算机内。由于音频数字化过程中采用的技术指标不同，产生了不同的音频文件格式。常见的数字音频格式如下：
（1）WAV格式。微软公司开发的一种声音文件格式，也叫波形声音文件，是最早的数字音频格式。
（2）MIDI格式。也称作乐器数字接口，是数字音乐/电子合成乐器的统一国际标准。MIDI文件中存储的是一些指令，由声卡按照指令将声音合成出来。
（3）CDA格式。CDA格式是CD音乐格式，取样频率为44.1kHz，16位量化位数，CDA格式记录的是波形流，是一种近似无损的格式。
（4）MP3格式。MP3格式是MPEG-1 Audio Layer 3，能够以高音质、低采样率对数字音频文件进行压缩。
（5）WMA格式。是微软公司开发的网络音频格式。
（6）MP4格式。采用了“知觉编码”压缩技术，加入了保护版权的编码技术。MP4的压缩比高于MP3，但音质却没有下降。
【学习音频信号处理,该如何入门,数字音频信号处理应该学什么】（7）QuickTime格式。苹果公司推出的一种数字流媒体。
（8）RealAudio格式。Real Networks公司推出的一种文件格式，可以实时传输音频信息。RealAudio文件格式主要有RA、RM、RMX三种，能够随着网络带宽的不同而调整声音的质量，在保证大多数人听到流畅声音的前提下，令带宽较宽的听众获得更好的音质。
（9）VOC格式。常用在DOS程序和游戏中，是随声卡一起产生的数字声音文件。
（10）AU 格式。应用于互联网上的多媒体声音，是UNIX操作系统下的数字声音文件。
（11）MAC格式。苹果公司开发的声音文件格式，广泛应用与Macintosh平台软件。
（12）AAC格式。是MPEG-2规范的一部分。压缩能力强、压缩质量高。可以在比MP3文件缩小30%的前提下提供更好的音质。
9、语音合成语音合成是指利用计算机合成语音的一种技术，使计算机能够产生高清晰度、高自然度的连续语音，具有类似于人一样的说话的能力。
语音合成可以通过将预先录制并存储的语音信号重新播放来实现。也可以采用数字信号处理的方法，通过激励一个类似人们发声时声道谐振特性的时变数字滤波器，调整滤波器的相关参数，生成各种音调的语音。
语音合成可分为三个层次，分别是文字到语音、概念到语音、意向到语音。要合成出高质量的语言，必须遵循人类语言的表达规则，如语义学规则、词汇规则、语音学规则。
10、语音合成技术分类按照合成方法分类。分为参数合成法、基音同步叠加法和基于数据库的语音合成法。
（1）参数合成法。通过调整合成器参数实现语音合成。
（2）基音同步叠加法。通过对时域波形拼接实现语音合成。
（3）基于数据库的语音合成法。采用预先录制语音单元并保存在数据库中，再从数据库中选择并拼接出各种语音内容。
按照技术方式分类。分为波形编辑合成、参数分析合成以及规则合成。
（1）波形编辑合成。将语句、短语、词或音节作为合成单元。这些单元被分别录音后进行压缩编码，组成一个语音库。重放时，取出相应单元的波形数据，串接或编辑在一起，经解码还原出语音。这种合成方式也称为录音编辑合成。
（2）参数分析合成。以音节、半音节或音素为合成单元。按照语音理论，对所有合成单元的语音进行分析，提取有关语音参数，这些参数经编码后组成一个合成语音库；输出时，根据待合成的语音的信息，从语音库中取出相应的合成参数，经编辑和连接，顺序送入语音合成器。在合成器中，通过合成参数的控制，将语音波形重新还原出来。
（3）规则合成。规则合成存储的是较小的语音单位，如音素、双音素、半音节或音节的声学参数，以及由音素组成音节、再由音节组成词或句子的各种规则。当输入字母符号时，合成系统利用规则自动地将它们转换成连续的语音波形。
11、文语转换系统文语转换系统是语音合成的第一个层次，是将文字内容转换为语音输出的语音合成系统。
12、语音合成技术的需求和特点语音合成技术具有四个方面的需求和特点：自然度、清晰度、表现力和复杂度。
13、语音识别语音识别技术是让计算机通过识别和理解，将语音转变为文本或命令的技术，让计算机能够听懂人类的语言。
14、语音识别系统分类语音识别系统按照其构成与规模有多种不同的分类标准。根据对说话人说话方式的要求，可以分为孤立字语音识别系统，连接字语音识别系统以及连续语音识别系统；根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统；根据词汇量大?。?可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。
15、语音识别的关键技术语音识别技术主要包括特征提取技术、模式匹配技术及模型训练技术。此外，还涉及到语音识别单元的选取。语音识别单元有单词、音节和音素三种。
（1）特征提取技术。在丰富的语音信号中提取出对语音识别有用的信息，通过对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。
（2）模型训练技术。按照一定准则，从已知模式中获取表征该模式本质特征的模型参数。
（3）模式匹配技术。根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。
16、音频处理软件Adobe Audition该软件是集音频的录制、混合、编辑和控制于一身的音频处理工具软件。可以轻松创建音乐、制作广播短片、修复录制缺陷。基本功能包括以下方面：
（1）录音。
（2）混音。将不同音轨中的声音混合在一起，综合输出经过混合的声音效果。
（3）声音编辑。例如声音的淡入淡出、声音移动和剪辑、音调调整、播放速度调整等。
（4）效果处理。软件带有不同类型的效果器，如压缩器、限制器、均衡器、合唱效果器、延迟效果器、回升效果器等，能够实时处理声音的效果。
（5）降噪：实现在不影响音质的情况下，去除噪声。
（6）声音压缩。软件具有支持目前几乎所有流行的音频文件类型，并能够实现类型的转换和文件压缩。
（7）协同创作。能够与多种音乐软件协同运行，实现音乐创作。
17、音频处理软件Adobe Audition基本操作Adobe Audition 2.0 音频处理软件具有三种编辑模式界面，分别是多轨编辑模式、单轨编辑模式以及CD模式。多轨与单轨界面大致可以分为菜单栏、工具栏、文件/效果器列表栏、音轨显示区、基本功能区和电平显示区。
常用的音频编辑方法主要是对音频波形进行裁剪、切分、合并、锁定、编组、删除、复制以及对音频进行包络编辑和时间伸缩编辑。
音频特效处理主要使用各种效果器，主要包括均衡效果处理、混响效果处理、压限效果处理、延迟效果处理等。
& 习题解析
一、单选题
1．人耳可以听到的声音频率范围为。
A）20-20kHz
B）200-15 kHz
C）50-20 kHz
D）10-20 kHz
答案：A
解析：人耳听到的声音频带范围是有限的，频率低于20Hz和高于20000Hz的声音信号人类听不到，即表示人耳的可听域在20-20000Hz之间。
2．格式的数字音频是微软公司开发的网络音频格式。
A）WAV
B）WMA
C）MP3
D）RM
答案：B
解析：WMA格式是Windows Media Audio的缩写，是微软公司开发的网络音频格式。其压缩率一般可以达到1:18 。
3．声音的三个要素中不包括。
A）音调
B）音质
C）音色
D）音强
答案：B
解析：声音具有三个要素：音调、音色和音强。
4．描述模拟音频信号的三个物理量中，表示声音的音调。
A）振幅
B）音色
C）频率
D）音强
答案：C
解析：自然界的声音信号是连续的模拟信号，可以用三个物理量来描述：振幅、周期、频率。其中，频率是声音波形在一秒钟内完成全振动的次数，表示声音的音调。
5．描述模拟音频信号的三个物理量中，表示声音的强弱。
A）振幅
B）音色
C）频率
D）周期
答案：A
解析：自然界的声音信号是连续的模拟信号，可以用三个物理量来描述：振幅、周期、频率。其中，振幅是声音波形振动的幅度，表示声音的强弱。
6．人们主要依据声音的特点来区分和辨别声源的种类。
A）振幅
B）音色
C）音强
D）音调
答案：B
解析：人的声音、其它生物的声音以及自然界各种声响都具有自己独特的音色。人们往往是依据音色来辨别声源种类的。
7．人类语音的频带宽度是Hz 。
A）200-3400
B）100-10000
C）20-20000
D）20-15000
答案：B
解析：人类语音的频带宽度为100Hz-10000Hz 。
8．模拟音频的声音质量主要与音色和有关。
A）声音强度
B）频率范围
C）声音音调
D）基音
答案：B
解析：模拟音频的声音质量简称“音质”，与音色和频率范围有关。悦耳的音色、宽广的频率范围，能够获得更好的音质。
9．将模拟声音信号转换为数字音频信号的数字化过程是。
A）采样→编码→量化
B）编码→采样→量化
C）量化→编码→采样
D）采样→量化→编码
答案：D
解析：模拟音频信号的数字化过程与普通模拟信号数字化过程类似，需要三个步骤：采样、量化和编码。
10．将模拟音频信号在时间上进行离散化处理，这一过程叫。
A）量化
B）编码
C）采样
D）压缩
答案：C
解析：要使模拟音频信号数字化，首先要在时间上对其进行离散化处理，这一过程叫采样。
11．以下数字音频文件格式中，称为乐器数字接口，是数字音乐/电子合成乐器的统一国际标准。
A）MP3
B）WAV
C）MIDI
D）QuickTime
答案：C
解析：MIDI格式是Musical Instrument Digital Interface的缩写，又称作乐器数字接口，是数字音乐/电子合成乐器的统一国际标准。在MIDI文件中存储的是一些指令，把这些指令发送给声卡，由声卡按照指令将声音合成出来。
12．影响数字音频信号质量的主要技术指标是。
A）采样频率和量化精度
B）压缩和解压缩
C）录音和播放
D）模拟和压缩
答案：A
解析：影响数字音频信号质量的主要技术指标主要包括采样频率、采样精度、声道数和编码算法。这些指标决定了数字化音频的质量。
13．奈奎斯特采样理论指出，采样频率不低于声音信号最高频率的倍。
A）3
B）1/2
C）1/3
D）2
什么没有声音

文章插图
5、音频知识详解(一) 现实生活中，我们听到的声音都是时间连续的，我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。
目前我们在计算机上进行音频播放都需要依赖于音频文件。音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程，人耳所能听到的声音，最低的频率是从20Hz起一直到最高频率20KHZ ，因此音频文件格式的最大带宽是20KHZ 。根据奈奎斯特的理论，只有采样频率高于声音信号最高频率的两倍时，才能把数字信号表示的声音还原成为原来的声音，所以音频文件的采样率一般在40~50KHZ，比如最常见的CD音质采样率44.1KHZ 。
采样：波是无限光滑的，采样的过程就是从波中抽取某些点的频率值，就是把模拟信号数字化。如下图所示：
采样频率：单位时间内对模拟信号的采样次数。采样频率越高，声音的还原就越真实越自然，当然数据量就越大。采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级。8KHz – 电话所用采样率, 对于人的说话已经足够，22.05KHz只能达到FM广播的声音品质(适用于语音和中等品质的音乐)，44.1KHz则是是最常见的采样率标准，理论上的CD音质界限，48KHz则更加精确一些(对于高于48KHz的采样频率人耳已无法辨别出来了，所以在电脑上没有多少使用价值) 。
采样位数(也成量化级、样本尺寸、量化数据位数) ：每个采样点能够表示的数据范围。采样位数通常有8bits或16bits两种，采样位数越大，所能记录声音的变化度就越细腻，相应的数据量就越大。8位字长量化（低品质）和16位字长量化（高品质）， 16 bit 是最常见的采样精度。
量化：将采样后离散信号的幅度用二进制数表示出来的过程称为量化。（日常生活所说的量化，就是设定一个范围或者区间，然后看获取到的数据在这个条件内的收集出来）。
PCM ： PCM（Pulse Code Modulation），即脉冲编码调制，对声音进行采样、量化过程，未经过任何编码和压缩处理。
编码：采样和量化后的信号还不是数字信号，需要将它转化为数字编码脉冲，这一过程称为编码。模拟音频进采样、量化和编码后形成的二进制序列就是数字音频信号。
声道数：声道数是指支持能不同发声的音响的个数，它是衡量音响设备的重要指标之一。
码率：(也成位速、比特率) 是指在一个数据流中每秒钟能通过的信息量，代表了压缩质量。比如MP3常用码率有128kbit/s、160kbit/s、320kbit/s等等，越高代表着声音音质越好。MP3中的数据有ID3和音频数据组成，ID3用于存储歌名、演唱者、专辑、音轨等我们可以常见的信息。
音频帧：音频数据是流式的，本身没有明确的一帧帧的概念，在实际的应用中，为了音频算法处理/传输的方便，一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。这个时间被称之为“采样时间” ，其长度没有特别的标准，它是根据编解码器和具体应用的需求来决定的。
模拟信号 -> 输入设备（传递电压值）-> 声卡（经过采样跟量化（即设置声音大小等各种值））-> 磁盘（文件） -> 声卡 -> 输出设备 -> 模拟信号
我们声音在物理上用波形表示，那么我们将这些波形称作为模拟信号。而我们计算机磁盘只能存储（01010101）的格式。我们将模拟信号转换成能够被磁盘存储的格式（010101）称之为数字信号。这个转换的过程我们叫模数转换。
我们发出来的声音（模拟信号）是连续的，我们如果要一直的对模拟信号进行转化，产生的数字信号会很大。那么我们就要采样，而采样精度就是每秒计算机对模拟信号进行采样的次数。最常见的采样精度就是上面提到的44.1khz/s,这个是经过大师们多年研究得出的数据，低于这个数据，效果就会很差，而高于这个数据，效果的差距不是很明显。
采样后就是变成了（0101010110100101…），那声音的音量是有大小的，那这串数据，怎样表示声音的大小呢？这就涉及到了比特率，它是指在一个数据流中每秒钟能通过的信息量。比特率就是将声音的大小划分为多少等级。举例下：8比特，在二进制中，表示有8位，表示的十进制的值就是0（00000000）～256（11111111），那每个数值就代表着一个声音大小。
经过采样、量化、编码后转化成数字信号，然后存储为文件。
文件是用来装数字信号的，文件包括了比特率、采样率、声道、编码方式、以及被编码过后的数字信号。
文件格式就是制造者自己规定的一种名称，在每个文件格式都会特定支持几种编码格式。打个比方就是文件就是一个容器，里面可以装不同的水，有的可以装一种，有的可以装好几种。
经过采样后的数字信号很大，有时候我们不需要这么大的，所以我们就要进行编码压缩，当然压缩技术都是有损的。在不大影响音频的效果的情况下，舍弃掉一些高频或者低频的数据。
编码格式可以理解为每种音频格式不同的编解码方式。
封装格式就是文件格式，编码就是编码格式。
了解了基础概念之后我们就可以列出一个经典的音频播放流程（以MP3为例）：
在iOS系统中apple对上述的流程进行了封装并提供了不同层次的接口（图片引自官方文档）。
下面对其中的中高层接口进行功能说明：
可以看到apple提供的接口类型非常丰富，可以满足各种类别类需求：
https://msching.github.io/大神之作
https://www.jianshu.com/p/5c5e95d89c4f写的相当不错
https://www.jianshu.com/p/423726cc9090知识点很全
https://www.jianshu.com/p/b3db09fb69dc总结的挺好
https://www.jianshu.com/p/a75f2411225f有点专业，了解一部分
http://blog.csdn.net/liusandian/article/details/52488078概念很清晰易懂