广州佩特电子科技有限公司

示例图片三
网站首页 > 新闻资讯 > 业界资讯

智能音箱方案中的算法有哪些?

2018-06-15 11:08:47 广州佩特电子科技有限公司 已读

智能音箱包含硬件、算法和内容三个方面,算法也是目前市场上智能音箱方案的评估标准,下面,佩特科技就来和大家聊聊智能音箱方案的算法。


在算法方面,主要包括语音检测、降噪、去混响和回声消除等传统音箱和通讯工具也需要具备的基本算法。智能音箱的关键算法是唤醒、语音识别、自然语言理解、对话管理、自然语言生成和文语转换等算法。

智能音箱方案算法.jpg

唤醒


出于保护用户隐私和减少误识别两个因素的考虑,智能音箱一般在检测到唤醒词之后,才会开始进一步的复杂信号处理(声源定位、波束形成)和后续的语音交互过程。


一般而言,唤醒模块是一个小型语音识别引擎。由于目标单一,唤醒只需要较小的声学模型和语言模型(只需要区分出有无唤醒词出现),声学打分和解码可以很快,空间占用少,能够在本地实时。


语音识别


语音识别的目的是将语音信号转化为文本。语音识别技术相对成熟。目前,基于近场信号的、受控环境(低噪声、低混响)下的标准音语音识别能够达到很高的水平。然而在智能音箱开放性的真实环境,需要接合前端信号处理一起来优化。


通俗地讲,利用移动窗函数实现对声音的分帧,使语音变成很多小段,对声学特征(大多是MFCC特征)进行提取,根据人耳的生理特性,把每一帧波形变成一个多维向量,该向量包含这帧语音的内容信息。在声学模型中,会存储很多参数,通过参数可以知道帧和状态对应的概率,每一帧对应一个状态号,再利用隐马尔可夫模型(Hidden Markov Model,HMM)构建状态网络,从状态网络中寻找与声音最匹配的路径,就可以将结果限制在预先设定的网络中,不至于状态号数量太多太复杂,但这样会造成语音识别内容的局限性,因此,识别的文本范围的广度和准确率是互相阻碍的两难的局面。


自然语言理解


由于中文断句的复杂性,一句话由很多个字组成,在不同的字之间断句都会产生不同的意思。而且,自然语言的形式(字符串)与其意义之间是多对多的关系,为了方便计算机处理,必须消除歧义,即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。


要完成上述目的,主要依托于大规模真实语料库的研制以及大规模、信息丰富的词典的编制工作。自然语言处理的基础是各类自然语言处理数据集。


总体来说,如何更有效地避免歧义依然是自然语义理解,尤其是中文自然语义理解中的一大难点。


对话管理


由于对话的连贯性,相似问题重复出现时人们一般不会再次说完整的句子,如果机器只能理解人发出的单独的一句指令而对上文没有记忆,则会使用户的使用感受大打折扣。因此,一般会将对话解析出的参数作为上下文,也就是全局变量,带入到下一轮对话,后台会根据一些条件判断是否还处于上一轮的领域。


自然语言生成


实际产品大多采用预先设计的文本模板来生成文本输出,使语音输出的效果显得机械化,用词和句式呆板单调。但是自动化的NLG方法很不成熟,需要投入非常高的成本,效果也难有明显改善。


文语转换


文语转换也叫语音合成,即让机器可以像人一样朗读任意给定的文本,要解决的问题主要是两点,一是可懂度,二是自然度。机器朗读的可懂度很多年前已经发展成熟,目前主要是在自然度上逐渐改善。


合成方法主要有参数合成和拼接合成。参数合成计算量小,部署灵活,但自然较差;拼接接近真人发音,存储和计算资源高,一般只能在线合成。


声纹识别


根据语音波形反映人生理和行为特征的语音参数,来识别说话者的身份。实际上识别准确率不如指纹或虹膜识别。目前的应用有微信的声音锁。


人脸检测与识别


带有摄像头的音箱可以通过检测人脸来确定用户的位置,并且可以辅助声源定位;人脸识别功能也可以用于用户身份。


声纹识别和人脸检测识别在其他方面的应用也比较稳定和成熟,智能音箱如果要加上此功能模块,不存在太高的壁垒。


智能音箱的应用包括音乐播放、控制家电和一些其他功能。


智能音箱要实现语音命令控制的音乐播放功能比较简单,如今在国内,几乎找不到能免费下载到高质量音乐的平台,因此智能音箱还需要能买到正版音乐曲库,在这方面,酷狗或喜马拉雅等企业推出的智能音箱产品更有优势。


要实现控制家电功能,一个品牌除了推出智能音箱之外,还要推出配套的其他家电,才能打通整个生态,并且要结合家装,让全套智能家电嵌入家庭。而创业公司想要做全套智能家电的难度太大,即使是传统家电厂商或者BAT等巨头,几年之内要使智能音箱可以实现对整套家居电器控制的目标也是不现实的,因为现有家庭的状况都是不同的家电来自于不同的品牌。用智能音箱操控非智能家电也可以通过另外购买扩展器的方式,但扩展器的使用也会受到一些限制,况且人们对这一功能的需求终究不够强烈,很难产生购买的欲望。


至于查天气、查词典、计算器或闹钟等功能,实际上是现有智能音箱用户使用最多的功能了。这些功能的实现并不难,智能手机甚至是十年前的按键手机都已经实现了这些技术,只是智能音箱将交互方式变成了语音输入指令,再由音箱语音输出结果而已。但iPhone的Siri等手机助手实际上也实现了语音交互对这些功能的使用。因此,智能音箱的这些功能将成为此类产品的必备,没有太大改进的空间,也不存在较高的技术门槛。


纵观国内外各大品牌的智能音箱产品,其功能大同小异,不同公司的产品在自己擅长的领域各有些侧重,比如阿里的产品支持声纹支付,谷歌的产品更擅长搜索,酷狗胜在音质。但无论价格高低,产品的性能都有待提升并且差异不大,而且多家公司纷纷开放自己的平台,市场上难以形成统一平台的局面。在智能家居方面,目前来说由于兼容性问题,任何品牌的智能音箱想成为智能家居的总遥控器都为时尚早。


www.gzpeite.net是广州佩特电子科技有限公司的研发技术展示网站,佩特科技是广州地区知名的嵌入式方案研发公司,主打产品为全志多系列嵌入式核心板/开发板,如A33核心板、A33开发板、A83T核心板、R16核心板、R58核心板、H8核心板等等。佩特科技不仅研发技术先进,批量出货能力强大,也提供嵌入式芯片方案定制,欢迎咨询洽谈。


Powered by MetInfo 5.3.18 ©2008-2023 www.metinfo.cn