一个成熟的智能音箱方案包含了核心技术？

2018-08-27 09:50:56 广州佩特电子科技有限公司已读

近期佩特科技推出了一款针对需要使用智能语音交互，智能语音控制等应用场景推出的功能评估板，可用于智能音箱方案。选用国内技术成熟的讯飞核心模组作为方案实现方式，采用六麦克风矩阵，具有音源方向定位，进场、远场语音识别，关键词唤醒，回声消除等功能。这块智能音箱方案开发板除了全志R16，还搭载了全志A33处理器，方便大家直接测试类似百度小度在家带屏智能音箱方案。那么，智能音箱的主板到底有哪些核心技术呢？

智能音箱主要包括四大核心技术：硬件层面的芯片技术和麦克风阵列技术；软件层面的语音识别技术和语义识别技术。

1、芯片技术

目前智能音箱芯片主要提供商是联发科。此外，国内智能音箱芯片提供商也逐步崛起，包括全志科技、瑞芯微、紫光展锐等，如咕咚音箱和叮咚音箱的芯片主要由北京君正和全志科技提供。以“叮咚音箱”为例，其主控芯片采用的是全志科技R16芯片，其他主要的芯片还包括：德州仪器TAS5731M 数字功放芯片，支持2.1模式；科胜讯的CX20810-11Z音频ADC芯片，专门用于远讲语音；三星的4Gb内存芯片，型号为K4B4G1646Q-HYK0；AXP223电源系统管理芯片，正基科技AP6210 WIFI蓝牙二合一芯片等。

核心技术1.png

智能音箱主要芯片供应商

2、麦克风阵列技术

麦克风阵列技术主要解决远距离语音识别以及复杂声学环境下提取纯净声源同时抑制噪声的难题。目前该技术是语音识别的硬件配套，所以主流的语音技术提供商都自主设计产品以支持其软件应用。

麦克风阵列的关键技术主要是解决环境噪声、房间混响、人声叠加、模型噪声、阵列结构等问题，若使用到语音识别场景，还要考虑针对语音识别的优化和匹配等问题。

核心技术2.png

麦克风阵列关键技术

呈现三大技术趋势：

趋势一：麦克风阵列的小型化，麦克风阵列受制于半波长理论的限制，现在的口径还是较大，声智科技现在可以做到2cm-8cm的间距，但是结构布局仍然还是限制了ID设计的自由性。而借鉴雷达领域的合成孔径方法，麦克风阵列可以做的更小，这种方法已在军工领域成熟验证，移植到消费领域只是时间问题。

趋势二：麦克风阵列低成本化，当前无论是2个麦克风还是4、6个麦克风阵列，成本都较高，这影响了麦克风阵列的普及。低成本化不是简单的更换芯片器件，而是整个结构的重新设计，包括器件、芯片、算法和云端。

趋势三：多人声的处理和识别，现在的麦克风阵列和语音识别还都是单人识别模式，距离多人识别的目标还很远。

核心技术3.png

麦克风阵列技术提供商

3、语音识别技术

该技术现阶段相对成熟，普遍近场识别率可以达到90%以上。行业技术龙头是科大讯飞，目前识别率可以达到97%。此外，腾讯、百度、思必驰等公司在识别率和技术实力上也都处于领先地位。

核心技术4.png

语音识别技术领先企业

4、语义识别技术

语义识别技术是智能音箱最核心的技术，正确辨析语境、语义可以显著提升交互体验，但目前该技术普遍存在误唤醒率高、连续对话功能不稳定、语义理解能力差等缺点，该技术的提升还有很大空间。

数据量与算法模型是语义识别技术发展的关键。当数据量不足时，自然语言处理还只能进行浅层模型分析，准确性上受到限制；当数据量增大，运用RNN、CNN为代表的神经网络深度算法模型对数据进行更复杂、精确的建模，从而使语言、语义的识别达到更好的效果。

国内最早的自然语言处理创业公司在经过几年的发展，已经在很多领域获得比较大的成果，典型企业如三角兽、云知声等。

核心技术5.png

自然语言处理创业代表厂商