作者:吴辰光 拍摄:吴辰光

手机导航在播报路况是不能识别用户语音的痛点终于有了解决方案。

1月6日,在百度Create大会-技术开放日媒体沟通会上,百度展示了手机全双工语音交互、 BEV自动驾驶感知、百度飞浆三项黑科技。其中,手机全双工语音交互的实现,让百度成为全球首个能在手机上实现纯软件方案回声消除技术的厂商。

一直以来,当用户开车途中手机导航正在播报实时路况,由于要临时修改目的地,只能将车停在路边后重新设置,因为手机里软件语音播报导航信息时,通常不可能识别用户说了什么。

百度语音首席架构师贾磊表示,在世界范围内,很长时间都没有一个方案能普适的支持在手机上实现全双工的语音交互,即在手机播放导航提示的同时,能够听清用户的指令,就像真人对话一样,可以被随时打断,对新的语音指令给予反馈。因此,想要实现全双工语音交互,必须先做回声消除,避免手机终端识别自己播放的声音。

通常在前装软件的音箱、车载系统上比较容易实现,可以通过硬件适配算法,提前保证回声消除的效果。而手机App属于纯软件后装方案,需要让软件算法适配不同型号的终端硬件。不仅如此,手机上喇叭距离麦克风的距离比较近,手机终端款式多,硬件参差不齐。这些因素叠加在一起,会导致声音信号的回声消除会出现各种各样的问题。再加上手机硬件的迭代更新非常快速,回声消除效果就更加难以保证了。

但现在,这些难题已得到解决。百度融合传统信号处理和深度学习模型各自的优点,基于语音识别目标,端到端地进行回声消除和信号增强,解决了手机场景下的回声消除问题,即使手机音量开到最大,回声消除量也能达到40分贝,使得手机APP的语音识别功能能够正常工作。

虽然手机的便携性导致语音交互的使用场景非常复杂,在交互中常常面临音乐、闲聊、环境噪声、内噪残余等与交互内容无关的其他信息干扰,语音识别难度增大。但百度研发出的基于SMLTA2的多场景统一预训练模型,一个模型解决噪声、用户口音和回声消除残余吸收等难题,在各场景下识别率相对提升超过20%,这在业界同类技术中,准确率是最高的。

配合语音语义一体化的置信技术,百度的技术方案可以降低错误响应,并且支持交互过程中的引导和澄清,让人机交互更像人与人的交流。

据透露,百度在手机端实现全双工语音交互后,下一步将用到更多产品中。

此次百度展示的另两个黑科技中,BEV自动驾驶感知就好比是一个从高处统观全局的“上帝视角”,车上多个传感器采集的数据,会输入到一个统一模型进行整体分析推理生成鸟瞰图,能有效地避免误差叠加。

作为全球自动驾驶技术第一梯队的玩家,百度并没有止步于BEV自动驾驶感知方案,还首次在业内提出了车路一体的解决方案UniBEV,集成了车端多相机、多传感器的在线建图、动态障碍物感知,以及路侧视角下的多路口多传感器融合等任务。

而百度飞桨作为国内首个自主研发、功能丰富、开源开放的产业级深度学习平台,研发出一系列工具组件,已在多个科研领域广泛应用。

截至目前,百度在技术研发上的累计投入已超过1000亿元。

作者 Wang