首款媲美专业发音人的实时在线语音合成系统预览版在Azure上正式运营服务

12月18日,在IoT In Action峰会上,微软全球资深院士首席语音科学家黄学东博士介绍智能语音和语言上的最新进展。首款媲美专业发音人的实时在线语音合成系统预览版在Azure上正式运营服务。

 

黄学东博士表示,微软在云服务上提供了世界级的语音合成服务,所有的互联网内容提供商都可以享受这个世界级的技术。它不仅解决了过去20年机器语音识别错误率居高不下的难题,更是人工智能语音和语言上的一次历史性突破——采用先进深度网络学习,简化了传统语音合成的架构。
 
首款媲美专业发音人的实时在线语音合成系统预览版在Azure上正式运营服务
 
从以上图片可以看出,左边紫色系统架构下,微软通过端到端的深度学习优化,为大家提供前所未有的、最自然的语音合成系统。
 
“基于神经网络的语音合成系统”是业界第一个实时的在语音上上线的人工智能服务。黄学东博士指出,大家可以享受更好的语音合成质量、更快的引擎性能、更广的全球服务部署。所有的内容提供商,不管是有没有音频、你的内容都可以转换成自然的声音表达,不管是在开车还是在睡觉,都可以享受高质量的交互。
 
同时,微软联合全球合作伙伴一起推出强大的语音麦克风阵列开发系统(Speech Devices SDK简称Speech DDK),它可以在25m之外都可以转写你的声音,DDK不仅可供用户免费使用,还可以整合到任何硬件设备中去,通过微软云服务为用户提供最先进的、世界一流的语音交互服务。
 
首款媲美专业发音人的实时在线语音合成系统预览版在Azure上正式运营服务
 
 
可以看到,它不仅仅是业界第一台多人原场会议转录系统,而且是业界第一台“睁开双眼”的智能音箱。
 
首款媲美专业发音人的实时在线语音合成系统预览版在Azure上正式运营服务