前言:现在“会说话”的公共设施会越来越多,未来每一个空间都至少会有一个可以进行语音交互的触点。语音技术的需求也随之提高,在线语音后的离线语音技术被视为智能家居新的增长引擎便不足为奇了。
智能语音是智能家居的起点
国外的IT巨头已先后以智能家庭产品与语音相结合的方式进入智能家庭领域:
·谷歌收购NEST布局智能家庭,不断强化GoogleNow的语音入口;
·苹果HomeKit智能家居平台与Siri也不断加强融合;
·微软也发布了语音助手Cortana,为它在智能家庭领域扩展交互入口。
而国内2014年语音巨头科大讯飞就宣布进军智能家庭市场,并发布了智能语音助手灵犀3.0来操控智能家居设备。
由于整个市场的价格竞争比较激烈,基于智能音箱通过蓝牙mesh的方式推广的智能音箱中心化控制的语音声控类的产品价格竞争尤其明显,利润逐步被稀释。无论是Google、Apple或是微软等平台业者,透过语音控制技术让更多型式的智能装置能在家中的生活空间取得更大的地位,让更多物联网装置更容易进入家庭的领域。所以语音助理的应用不仅为家庭生活带来更多的惊奇,也进而带动智能家居在目前有较明显的进展。
语音控制中的不良反馈
①智能音箱通过网络在云端识别反馈的控制速度比较慢,通常网络一般的情况下反馈时长为300—500ms,网络情况良好的情况下也有300ms左右。
②智能音箱通过半径3米—5米内才可以语音控制其他设备。假设智能音箱放在客厅,那控制卧室的灯必须要在客厅实现,如果身处卧室想控制卧室的灯就比较麻烦。
③绝大多数的云端识别都会在后台录音,相当于用户在家里不知不觉的情况下声音的隐私已经被侵犯,并上传到云端做了保存。这点在欧美和日本客户那里的反馈比较明显,国人也对声音的隐私开始重视起来。
市场成熟后的需求变化
目前,智能家居已经进入市场推广阶段,并且有很多成熟项目不断落地,行业发展前景可谓是日趋明朗。但是随着智能门铃、智能猫眼、智能厨房电器以及睡眠跟踪记录传感器等设备的广泛应用,现在智能家居甚至已经延伸到家庭中最私密的区域。
智能家居技术给人们日常生活带来了极大的便利,比如让你知道加热器是否打开或门有没有锁上等等,但这些连接的设备也带来了许多安全问题。语音控制作为智能家居入口,在控制过程中牵涉到网络传输的部分,对于智能家居系统是否安全起到至关重要的作用
智能语音后的离线语音
离线的简单语音控制应用在这几个问题上得到了有效的解决,通常家电和小家电的应用场景的控制也只有几个功能性动作就能解决。
应用场景就是切入到用户的这个需求点,分布式的提供给用户单个产品的针对性的声音控制。不需要基于手机、智能音箱和网络就可以通过声音进行控制。
·TO C领域包括高性价比智能音箱、全双工网络电话、AIOT智能家电、后装车载智能语音助手等。家电控制(空调、洗衣机、冰洗、热水器、风扇等)并支持分布式语音控制和联动。
在网络状况不好或者没有网络的情况下,可以使用基础控制的本地命令词进行离线控制。
·TO B领域包括酒店智能语音助手(云端语义针对酒店服务应用可定制化,如:客房服务、订餐服务)包括可植入酒店空调、酒店控制面板、酒店客房电话等设备应用。智能校园宿舍管理(云端可针对宿舍房间号定点推送上课通知、语音控制、网络电话等)。
实际上,全屋智能的控制类产品都是离线语音的主战场。离线主打控制,在线主打交互,是目前智能家居落地比较亲民的一种模式。
各家不同的离线语音方案
·启英泰伦:
CI110X 系列基于 NPU+MCU 架构设计,内置升级了的脑神经网络处理器 BNPU v2,并新增了语音加速传感器。CPU 主频也较上一代的 100 MHz 提升到了 160MHz。
同时该芯片还集成多路 UART、I2C、SPI、PWM、GPIO 等外围控制接口,可以开发低成本的单芯片智能语音离线识别方案。基于 CI110X 系列芯片开发的产品,语音交互的基本功能可通过离线语音实现,而语音内容和服务则可以通过联网实现。
·杭州国芯:
GX8008芯片是专为智能语音前端信号处理而设计的嵌入式SoC芯片,支持麦克风阵列,集成专用于语音信号处理的DSP处理器,内置处理前端信号的语音算法,可以让传统的设备保留其原先硬件的基础上,通过一个简单的USB口实现语音能力的升级。
GX8009芯片是专为AI语音应用设计的嵌入式SoC芯片,拥有独特的多核异构架构,集成自主产权的NPU神经网络处理器,用于语音信号处理的DSP处理器等模块,使得产品能处理深度神经网络计算,离线运行麦克风阵列信号。
·思必驰:
TH1520主要面向智能家居、智能终端、车载、手机、可穿戴设备等各类终端设备。解决方案包含算法+芯片,具有完整语音交互功能,能实现语音处理、语音识别、语音播报等功能,支持离线语音交互。
·君正:
采用君正 X1000E 处理器,最高1GHz主频,支持硬件浮点,支持SIMD指令加速。可运行各类语音识别、图像识别、降噪、消回音、APE/FLAC解码等算法。待机功耗2mW,平均运行功耗200mW,最高运行功耗700mW。
·互问:
LS416 是一颗高度集成化的语音处理芯片,内置互问离线语音识别引擎,支持多命令词本地语音控制应用。 内置spi flash 和高性能codec,使用低成本轻量化神经网络语音处理单元,以及低功耗MCU,支持多种逻辑应用开发。
W02x芯片是一款高度集成的本地语音系统级芯片(SoC),自研基于神经网络深度学习的本地唤醒和前端降噪算法,无需额外license。
离线语音技术需克服重重困难
离线语音解决的基本问题包括本地语音识别、本地计算、部分的数据训练。相应的,对于硬件的要求就是低功耗、低成本、快速响应。
由于语音交互类的设备本身在产品形态上差异化很大,使用场景也呈现出碎片化的特点,要为用户提供自然的本地语音交互体验,就要对不同的产品做出不同的语音控制命令,这些都需要通过修改代码实现,工作量可想而知。
再进一步的让设备达到用户所需要的体验,还要做效果调优的工作,这就需要熟练的工程师。总而言之,是有不少开发门槛和开发成本的。
结尾:
到2023年,21%将拥有远程监控和控制,设备支出将占智能家居设备总支出的52%。未来,离线语音以及离线加在线语音等多种语音形式,将更加广泛地应用于智能家居、智能办公等多种场景。
智能家居以家庭为单元,运用多种信息技术,达到监控与信息交互的目的,在未来,居住更加智能、消费者的居住体验更加舒适,一场由语音交互的变革看起来势在必行了。