第28届WWDC苹果全球开发者大会,苹果终于压轴重磅发布了HomePod,一款苹果精心打造的智能音箱。但是,估计这让很多果粉失望了,这应该是苹果系列中极少称得上“很丑”的产品。鉴于笔者并不懂艺术,因此凌晨着急询问了很多美学人士,这才没让笔者怀疑自己的审美出现了问题。
HomePod的设计师估计是成长在80年代的中年人,因为看到HomePod的第一眼就想起了妈妈的毛线球,新世纪的年轻人哪见过这古董,当然,还有一种更难看的尼龙线球也是这个造型。
当然,HomePod虽然丑了点,但是性能一点不差,苹果对于用户体验的极致追求还在,而且,HomePod是迄今为止首款回归音箱本质的智能音箱。苹果甚至不惜代价同时部署了麦克风阵列和扬声器阵列,这就是苹果的态度:不仅追求远场语音交互的体验,也追求极致音质带来的享受。
靴子落地,为何要用6麦的环型阵列!
HomePod内置了苹果Siri,这次苹果采用了业界流行的6麦环形阵列技术。这种麦克风阵列技术适合远场语音交互,这样可以满足用户远距离通过“Hey,Siri”与HomePod的命令交互。苹果HomePod采用麦克风阵列技术,也表明了苹果将Siri从近场语音交互升级到远场语音交互的技术思路。
前几年,语音交互应用最为普遍的就是以Siri为代表的智能手机,这个场景一般都是采用单麦克风系统。单麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。但是,若声源距离麦克风距离较远,并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这会严重影响语音识别率。
而且,单麦克风接收的信号,是由多个声源和环境噪声叠加的,很难实现各个声源的分离。这样就无法实现声源定位和分离,这很重要,因为还有一类声音的叠加并非噪声,但是在语音识别中也要抑制,就是人声的干扰,语音识别显然不能同时识别两个以上的声音。
显然,当语音交互的场景过渡到以智能音箱、智能电视、机器人或者汽车为主要场景的时候,单麦克风的局限就凸显出来。为了解决单麦克风的这些局限性,利用麦克风阵列进行语音处理的方法应时而生。麦克风阵列由一组按一定几何结构(常用线形、环形)摆放的麦克风组成,对采集的不同空间方向的声音信号进行空时处理,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。
从目前国内外市场上的产品来看,Amazon Echo的方案是6+1麦的环型阵列结构,Amazon Echo Show是8麦椭圆型阵列结构,Google Home是2个麦克风结构,国内科大讯飞的叮咚音箱是7+1麦的环型阵列结构,当前声智科技的产品线最为齐全,拥有3/4/4+1/6麦的环型阵列结构以及单麦、4麦线型、6麦L型,8麦双L型、10麦分布式阵列等结构。
实际上,不同的阵型适应不同的场景,同时还要考虑性价比,显然阵列结构越复杂其成本也越高。而对于智能音箱来说,由于用户使用习惯需要360度的拾音和定向,所以环型阵列结构是最为合适的。至于选用3个,4个还是6个,则是根据定向精度和交互距离来决定,从某个角度可以理解为麦克风的数量越多定向越准,语音识别的距离也会越远,当然,这和阵型的具体结构也有关系。
注意,这里的2麦克风不是阵列,并不具有阵列的一些功能和性能,2麦最通常是用在类似手机和蓝牙耳机等超薄的设备上实现降噪功能,实际上,很多场合经过特殊设计的单个麦克风即可替代2麦结构。由于苹果HomePod必须差异于Amazon Echo和Google Home,选用6个麦克风的结构非常明智,性价比最为合适,这也是声智科技主推的麦克风阵型,事实上,根据声智科技当前的技术,选用4个麦克风的效果也不会太差,只是语音交互距离会损失一点。
技术专区
- 嵌入式视频通信的兴起:视频应用程序趋势良好
- 工程师分享的嵌入式系统在传感器上运用的技巧
- ARM芯片基于linux嵌入式操作系统实现的CMU控制器方案
- 探讨基于sopc技术的fpga集成嵌入式系统设计
- 几款经典的嵌入式系统方案推荐