【技术专辑】Companding简介:压缩语音在电话系统中的传输

本文介绍了压缩扩展的主题 - 人类语音在电话系统中的数字化,传输和转换。

 

简要背景

 

电话系统自其发明以来一直受到高度关注,并且已经从公共交换电话网(PSTN)发展到现代无线数字移动系统。在过去的六十年中,基于数模转换的脉冲编码调制(PCM)系统已经被使用。应当注意,不管使用何种编码,所有电话系统都通过利用人类语音和听觉机制的基本事实来工作。    

 

人类言语和听力机制

 

言语是人类之间自然的交流机制。单词由各种音素组成,单个声音的幅度不同,较安静的音素比较响亮的音素更频繁地发生。通常,人类产生的语音信号落在70Hz至400Hz的频率范围内  ,而人类听觉的频率范围为20Hz至20kHz。我们的听力是选择性的,对300 Hz至10 kHz范围内产生的声音提供最高灵敏度。

 

这些实验支持的事实得出的结论是,当语音信号被记录在0.3到3.4kHz的范围内时,听众传达的信息很容易被听众理解。

 

【技术专辑】Companding简介:压缩语音在电话系统中的传输

图1. “Speech Banana”显示识别所需的各种幅度的音素及其频率。图片由Clear Value Hearing提供。

 

当听力的能力以dB标度表示时,其范围从0 dB SPL(听力阈值)到130 dB SPL(疼痛阈值)。

 

较低和较高幅度之间存在  较大比率。在一般意义上,较低振幅的声音被认为是耳语,而较高振幅的声音被认为是呼喊声。然而,即使正常的会话语音在幅度水平上也有相当大的变化,因为它由不同的音素组成。此外,可以看出,较安静的音素携带更多信息并且具有比更响亮的音素更多的熵。

 

基于PCM的电话系统,无需压缩

 

电话系统首先出现在模拟中,现在变成了数字系统。结果,无论我们说什么都需要数字化然后传输 - 因此实际的模拟语音信号需要在接收器端恢复。将任何模拟信号转换为其数字形式包括三个重要阶段:采样,量化和编码。

 

语音信号的采样

 

采样是一个过程,通过该过程我们可以将在所有时刻定义的原始信号转换为仅在特定时刻定义的离散信号。

 

我们如何确定定义信号的点?

 

我们首先考虑基本但非常重要的事实,即我们不仅对发送器发送信号感兴趣,而且还对接收器恢复信号感兴趣。

 

与该过程相关的定理是众所周知的奈奎斯特定理,该定理表明只有在至少以其中包含的最高频率的两倍的速率对其进行采样时,才能可靠地恢复发送信号。

 

因此,如果最高频率为f,那么我们需要对信号进行采样的频率应大于或等于2 f。反过来,这意味着我们需要在间隔小于或等于1/2 f的时刻定义我们的信号 (由于频率和时间彼此成反比)。  

 

根据上一节中的讨论,我们知道我们对电话会话的兴趣跨越0.3到3.4 kHz的频率范围。并且任何成功的信号传输都需要保护带的存在,因此整个范围变为0到4kHz。因此,在我们的例子中,【技术专辑】Companding简介:压缩语音在电话系统中的传输的采样率是一个不错的选择。  

 

语音信号的量化和编码

 

请注意,采样仅在时间轴上对信号进行数字化(参见图2所示的典型示例,其中红色正弦信号通过采样转换为蓝色离散值信号)。然而,为了使语音信号本质上完全是数字的,我们甚至需要沿着其幅度轴离散它,这被视为量化。

 

【技术专辑】Companding简介:压缩语音在电话系统中的传输

图2.正弦波的采样

 

现在,我们的下一个问题与采样情况非常相似 - 我们如何决定何时沿其振幅轴定义信号?换句话说,我们定义信号幅度的点之间的间距应该是什么(这在技术上称为步长)?

 

即使在这种情况下,我们也需要选择步长,记住我们需要在接收器侧有一个最小的失真信号。考虑到这一点,让我们假设我们选择一个非常小的步长来量化低幅度信号(正弦波在值+1和-1之间变化,如图3a中的粉红色所示)。较小的步骤意味着我们将沿着其幅度轴以非常接近的间隔定义我们的信号(图3a),因此定义我们的信号所需的步数将非常大,这需要大量的比特来对其进行编码,需要大带宽。

 

【技术专辑】Companding简介:压缩语音在电话系统中的传输

图3.低幅度正弦波的量化,具有(a)小步长(b)大步长

 

考虑到带宽点,让我们假设我们使用太少的步骤来定义信号。较低数量的步骤意味着我们沿其幅度轴定义信号的点之间的间距较大。这允许我们非常粗略地定义我们的信号(图3b),这在我们在接收器侧重建信号时导致问题,因为在量化期间存在的大部分信息将丢失。

 

接下来,我们分析在大幅度信号的情况下改变步长的效果。这在目前的背景下很重要,因为我们从人类言语和听觉机制一节中提出的讨论中得知,我们感兴趣的信号,语音,包含广泛的幅度。

 

图4检查了当幅度增加四倍时使用图3中使用的相同步长的量化效果(图4中的原始正弦波幅度在+4到-4之间变化)。在这里,图4a再次强调了这样一个事实,即当我们需要复制原始信号时,较小的步长总是更好。

 

【技术专辑】Companding简介:压缩语音在电话系统中的传输

图4.具有(a)小步长(b)大步长的大幅度正弦波的量化

 

另一个需要注意的重要事项是图4b中的量化信号不像图3b中所示的量化信号那样失真。也就是说,当信号幅度较高时,使用大步长的量化仍然产生可接受的结果。这意味着对于低幅度信号而言被证明“非常大”的步长在涉及大幅度信号时并不“那么大”。换句话说,可以说信号的幅度越高,步长将被量化的越大,没有太多的失真。

 

压缩扩展:简介

 

每个研究人员都认为,任何系统,无论多好,都可以通过某种方式得到改善。然而,为了找出最有效(或更好)的方法,目前部署的概念和方法必须仔细审查,并且必须从不同的角度进行审查。  

 

为了在我们的案例中实现这一点,让我们回顾一下这篇文章,同时思考两个重点。

 

首先,回想一下,当涉及到包含在其中的信息时,人类的言语不是各向同性的。更安静的语音发生频率更高,并且包含的信息比更响亮的音素更多。其次,请注意,与较低幅度信号相比,选择用于量化信号的步长可以更大(不影响其质量)。

 

如果是这样的话,为什么我们不能使用较小的步长量化低幅度语音信号,而对较高幅度的语音信号使用较大的步长?可以办到。事实上,这种使用非均匀水平量化语音信号的技术被称为“压缩扩展”,这是压缩和扩展的一种手段。

 

压缩扩展是使用不相等的量化级别对信号进行编码的过程。在该技术中,使用大量小电平来编码低幅度信号,而使用少量大电平编码较高幅度信号。这意味着通过使用压缩扩展,我们可以用更少的级别量化我们的语音信号,同时保持所需的保真度。此外,较低的级别数意味着较少的代码比特,这意味着减少了带宽需求。

 

结论

 

本文介绍了与人类语音相关的概念及其基于PCM的电话系统的特点。我希望你已经获得了关于压缩的简单知识及其在电信领域的重要性。

 

压缩扩展技术的细节及其他优点将在本系列的下一篇文章中介绍。  

  • 【技术专辑】Companding简介:压缩语音在电话系统中的传输已关闭评论
    A+
发布日期:2019年03月04日  所属分类:参考设计