声智科技携手百度，助力小度智能音箱成为“三好生”

文章来源：

字体：大中小

发布时间：2018-06-12 10:10:25

6月11日，百度“新声出道”的小度新品发布会在北京百度科技园K6熊掌报告厅召开，新品“小度智能音箱”正式在后厂村C位“出道”，尝鲜价89元。这款“后厂村C位出道”的百元AI实力担当产品——“小度智能音箱”凭借“好听、好用、好玩”的特性，新晋成为智能音箱届的“三好生”！

这款定价89元的小度智能音箱是如何成为智能音箱届的“三好生”？声智科技作为小度智能音箱的技术合作伙伴，带您一起解锁小度智能音箱背后的秘密武器！

（1）好听：采用全球首款3麦克风阵列设计，硬件毫不妥协！

小度智能音箱作为一款定价89元的智能音箱，其跨级音质体验是百元档音质最佳的人工智能音箱。小度智能音箱音质出众，却身量小巧，而且有着毫不妥协的远场语音交互体验。它是如何平衡ID、音质设计和产品体验之间的矛盾呢？

作为一款支持远场语音交互的智能音箱，一定离不开麦克风阵列。麦克风阵列的主要作用是帮助机器适应更加复杂的场景。麦克风阵列是由一定数目的声学传感器组成，用来对声场的空间特性进行采样并处理的系统，将会影响真实环境下的语音唤醒和识别率，是决定用户体验的关键因素。

然而，当前市场上的麦克风阵列方案中，常见的阵型多为4麦，6麦，8麦等阵元的线型、环型、菱型等阵列方案，亚马逊的Echo还采用过6+1麦的方案，亚马逊主流产品仍在沿用6麦环形和8麦跑道型方案。从技术原理来看，更多数量麦克风的阵列方案在远场语音交互效果上更具有优势，但是多麦阵型也限制了ID设计的想象空间，对音箱设计提出包括ID、成本等更多苛刻要求。

图为麦克风阵列模组

声智科技为小度智能音箱量身打造的全球首款3麦环型麦克风阵列，很好的平衡了ID、成本、音质设计和产品体验之间的矛盾。这款全球首款3麦克风阵列构型灵活，打破了音腔设计的局限，并释放ID设计的无限空间，同时平衡了成本和效果之间的矛盾。

声智科技推出的这款全球首款的3麦环型麦克风阵列内置通话降噪、混响抑制、回声抵消、噪声抑制、语音增强、波束形成、增益控制、语音识别等远场语音交互技术，5米内的嘈杂环境中，仍可以有卓越的远场语音唤醒性能、精准的远近场语音识别，实现轻松唤醒，无惧环境，想说就说，声随心动，保证远场语音交互的完美体验。而且，相比4麦、6麦、8麦阵列方案的成本偏高，3麦阵列方案价格更加亲民，相比2麦又有效果优势。

不仅如此，为了释放ID设计的无限空间，声智科技针对小体积智能音箱尺寸特性，进行了独家的技术优化。小尺寸智能音箱的麦克风阵列与喇叭的位置，以及ID结构都较为受限，特别是麦克风阵列与大音量喇叭相距很近，带给语音交互技术处理极大的压力，特别是自噪声抑制和远场信号处理的难度极具增加。为了在这样的特殊结构设计获得更好的语音交互效果，声智科技独家设计优化，采用抗强噪唤醒技术（AKS技术）、垂直抗强噪识别技术（VAN技术）、OpenAEC技术等提升远场语音交互体验。

（2）好用：完整远场语音唤醒和识别服务，又快又准！

为了让小度智能音箱更好用，提升产品的净推荐值NPS，声智科技通过SoundAI Voice Kit（以下简称SVK）为小度带来更敏捷、更贴合人性化的语音交互设计。

SVK是一款集成声波配网、波束形成、声源测向、定向拾音、噪声抑制、混响消除、回声消除、语音唤醒、端点检测、语音识别、语义理解、语音合成、双工通话等全链路的智能语音交互开发套件，兼容主流智能语音硬件架构，支持DuerOS、AliGenies、小爱平台、腾讯叮当、Amazon Alexa等主流AI平台, 助力品牌厂商实现智能硬件产品的极速开发和量产上市。

什么样的响应时间才能带来完美的语音交互体验？人机语音交互是让机器模拟人的行为，让机器适应人类的交互习惯。大多数情况下，在生活中人与人对话时，一个过快的回答会给用户带来轻浮感和抢话感，而一个过慢的回答会给用户带来迟缓感和愚钝感。因此智能音箱的响应时间对于用户体验至关重要。

此次，小度智能音箱采用了声智科技的SVK完整的远场语音唤醒、远场语音识别（Far-Field ASR）服务。声智科技精准的“远场语音唤醒技术”和”远场语音识别技术”，面向垂直领域深度优化，达到平均96%以上的准确率。而且，不仅识别率极大的提升，也带来了更符合人性化的语音交互速度体验，使得小度智能音箱从唤醒到内容的全链条响应速度达到全球极致的1.4S以内，而用户唤醒以后的机器应答响应时间更是做到了400~500毫秒的极致速度。

什么样的语音唤醒体验才能带来完美语音交互体验？语音唤醒是智能音箱用户的第一体验。声智科技通过宽场景高灵敏唤醒技术，很好的平衡了唤醒率和误唤醒率。众所周知唤醒率和误唤醒是一对跷跷板，当唤醒效果很好的时候，误唤醒通常也会很高，智能音箱毫无征兆的突然唤醒也是很麻烦的事情。为解决这个矛盾，声智科技的技术不走讨巧路线，而是采用全新的唤醒模型，优先保证用户的体验，在此基础上再降低误唤醒率，同时还要提升强噪环境下的唤醒率。

当然，不同麦克风器件的选择带来不同的语音交互效果，信噪比（SNR）70dB以上的麦克风要比信噪比60DB的麦克风的远场和抗噪效果更好，但是选用高信噪比的麦克风，其结果就是成本会高出很多。彻底屏蔽硬件的差异化，面向低成本高失真产品，努力帮助客户降低成本，声智科技推出了低成本高容错唤醒技术。即便在一致性和失真度非常大的情况下，也要出色的保证用户体验的效果，这是声智科技给所有客户一直的承诺。

什么样的语音识别体验才能带来完美语音交互体验？由于远场智能产品的场景特殊性，远场语音识别相对更加垂直，比如智能音箱的识别偏重于音乐和百科领域，智能汽车的识别偏重于地图和音乐领域，而对于地域性的覆盖，则是远场语音识别着重考虑的，并不能简单把方言划归为一个技术系列，特别是消费电子领域的高度标准化思维，对于远场语音识别的场景兼容更加看重。所以声智科技的Far-Field ASR就要在垂直领域考虑更多场景难题，不仅如此，为保证云端服务的稳定性和并发能力，声智科技采用端云强耦的技术架构，合理在端云分配计算能力，与Amazon AWS、阿里云等主流云计算平台采用相同的服务可靠性标准，SLA高达99.99%。

（3）好玩：满足儿童与极客不同需求，解决宽场景难题

真正的产品落地需要考虑众多应用场景的难题，声智科技的Far-Field ASR就要在垂直领域考虑更多场景难题，比如老人和小孩的识别怎么办？南方和北方的语言差异怎么办？而并非只是简单的技术叠加。

智能音箱市场的用户群中有20%+是儿童，如何满足儿童用户群体的需求，提供零沟通距离，优质精选内容，保证健康安全又不失好玩有趣的语音交互体验？声智科技推出了远近场的儿童语音识别技术，针对儿童的语音特点，例如：儿童生理上发育不够成熟，不善于掌握发音部位与方法，辅音发音分化不明显。而且，儿童发音单音重复较多，往往发出单个的、重叠的音，他们会说“车车”、“糖糖”、“兔兔”、“饭饭”，而不说“汽车”、“糖”、“兔子”、“饭”这样的儿童的交流方式，声智科技进行声学模型优化训练，升级打造ASR技术，使得儿童识别率更准确，更贴合儿童的交互习惯。

除了儿童模式，小度智能音箱还推出了极客模式。极客模式下，一次唤醒之后，用户可以进行多轮对话。针对用户多轮对话的语音交互需求，声智科技推出了支持多轮对话的端云交互技术，从麦克风阵列、语音唤醒、端点检测和语音识别四个技术链条进行深度优化，满足了百度对于用户体验的极致追求。其中，端点检测技术既要保证响应速度，又要准确识别断句以保证语言连贯性，在复杂场景下的技术实现非常困难。声智科技率先突破这些技术难关，将会推动智能音箱技术向着更加智能的方向快速发展。

随着用户认知度提升、整体产业链的成熟、用户体验提升等因素，2018年智能音箱将会持续爆发。但语音交互技术仍需继续发力，声智科技作为国内知名的语音交互技术提供商，将持续聚焦在技术领域，与众多合作伙伴一道推动智能语音行业的发展。