2014年11月,亚马逊低调发布智能音箱 Echo,这款与其他音箱看起来并无差别的硬件产品,可通过语音交互播放音乐、播报天气、闹钟提醒等,做一些简单的服务输出。彼时的中国,人工智能并没有这么火热,BAT为第二年火热的外卖大战热身。
从阿尔法狗(AlphaGo)与李世石的世纪大战开始,“人工智能”这个词开始迅速进入了大众视野,也成为科技圈的年度热门话题之一。不过相比高深莫测的阿尔法狗,消费者对于另一款人工智能的产品则更为熟知,它就是“智能音箱”。
智能音箱对于普通人来说并不陌生,随着大数据、物联网、AI等技术的不断成熟,Google、小米、百度、阿里巴巴等企业推动着智能家居迎来又一波发展浪潮,而该浪潮的主角则是智能音箱。在今年的CES Asia上,天猫精灵带去了诸多产品,OFweek智能家居网小编专访了阿里巴巴人工智能实验室终端产品总经理茹忆先生。为什么天猫精灵的定价降到了两位数?阿里给了天猫精灵这个硬件哪些资源的倾斜?来听听他是怎么说的。
茹忆
Q:OFweek智能家居网
A:茹忆
Q:您有从事过音箱方面的经验吗?以往的工作经验对从事天猫精灵的音箱终端有什么帮助吗?
A:大部分用户的潜意识里,音箱的尺寸大就是好,品牌知名度高音质就好。智能音箱不仅仅会要求会发出声音,在结构、系统上,甚至在细节如喇叭的设计上,一切设计得完美才会展现好的品质。在小米电视事业部研发岗位多年的工作经验,让我对智能音箱有了很好的经验。
在音箱的音质测试上,我们会从“平祥的曲线”提出要求,例如频段上没有破音,这要求基础要打扎实,在音质方面,得达到品牌级的标准,有的地方要软一些,那么就需要对它们的某些地方做对应的处理。不同的人群对音质的主观感受完全不一样,但我们在保证基础音质音效的前提下,也会有自己的特色。实际上我们的产品不会像普通的音箱品牌一样强调说我们的低音特别棒,达到发烧友的级别。我们是强调在家庭环境中,让老人、孩子或是整个家庭听起来比较舒服,这是我们对音质的理解。
我们内部的叫法是“完成内部语音,满足用户家庭听音效果、优质音箱下的设计最优产品”,所以我们做了天猫精灵这款产品,希望更多的人购买这款产品,而且我们会对产品做进一步优化,让更多人感受这款产品,并体验到AI。
这款产品实际上有两个优点,首先是我们的产品是国内第一个使用双mic,并且他的拾音效果在3米范围内是非常优秀的。第二个是我们是国内智能音箱第一个推出前喇叭出音的企业,也就是前向喇叭出音。
就目前而言,前向喇叭是最好的,这块产品是最体验技术能力的,为此我们有世界赫曼五级金耳来负责听音,我们又引进了BTS的后处理技术,专门帮我们调整音效。由于互联网的音源和音质内容与传统音源不一样,通过BTS处理,可以较好地还原音质中出现的问题,这是我们第一次独家合作。这是音质补偿。
我们还做了一个自动音量均衡,在互联网中听不同的音乐时,由于录制的音量不一,从而导致的声音较大或较小,通过自动音量均衡调整后,即使听完整个专辑,用户也不会感受到音量的变化。
此外,我们实现了人声增强功能,专业术语叫“对白增强”,该技术主要是用于提升人声效果,从而让话语更加清晰和清楚,通过这项技术,并与AI相结合,可以说这块产品是目前最好的产品。智能音箱是人工智能实现的新赛道,音乐只是智能音箱的功能之一,不是其唯一功能。我们将智能音箱定义为语音交互的人机入口,它能提供的不仅仅是音乐,还能提供无限的想象。
Q:智能音箱在音质及系统方面有着特殊的要求,天猫精灵作为阿里巴巴重点扶持的项目,集团内部会给予一定的资源倾斜吗?
A:用户在天猫精灵上购物,如订购河马的快餐、充话费等,将其整合起来才变得更智能。把阿里生活服务内的东西落地,这些对用户来说不仅仅给生活带来了便利,实际上是一个语音交互入口,互联网时代能触达能触达千万级别的用户,主要的人群是学生、白领为主,主要用于学习、工作等。
百度是百度问答,腾讯的优势是在娱乐和社交,小米的优势是智能家居的对接,而阿里巴巴的优势是电商和生活服务,其次是阿里巴巴投资的各类公司,比如饿了吗、河马、天猫超市,在此基础上我们的核心优势是,把阿里巴巴的优势放到最大,国内各巨头的优势。
据不完全统计,中国智能手机用户约为7亿人,但并不是所有人都在享受互联网的红利,也就是我的父母还不会用滴滴搭车,只能用微信跟我们简单的沟通,打字速度也比较慢,虽然这些人没有享受到互联网的红利,但是他人接触互联网的人从几千万变成几亿。
智能音箱,我们称为人机语音交互系统,其带来的不是几亿级别的用户,他是十几亿的人群,理论上他能让十几亿中国人都能上网,从而享受互联网的便捷、互联网的红利,所以我们说阿里巴巴为什么要做智能音箱这个东西,其实我们是希望通过这种交互升级,从而给更多的人带来互联网的价值,让更多人感受到我们给他们带来的便利,这就是我们要做的事情。那么音乐是人机语音交互系统的一部分,目前阶段是它最主要的一个服务,但是在往后的十年里,我觉得,会有更多应用出现,帮助人们的日常生活,而现在只是一个开始。
Q:从互联网到物联网,再到智联网这样一个阶段吗?天猫精灵的目前售价为89元,而百度和猎豹的智能音箱只有一款产品,那么天猫为什么会走这个战略?
A:我们的视角和维度叫交互,在交互的一个基础上,会发现开始是人去学习机器,最后发展到机器理解人。天猫精灵目前有三款产品,去年推出的叫天猫精灵S1,这是我们的第一款产品,这是把我们认知的,提供的比较好的音质、用户喜欢的产品,我们这么定义,然后推出来。
在今年三月份的时候,叫天猫精灵,曲奇,它是缩小版天猫精灵X1。目前推出天猫精灵方糖,并把价格定为89元。我们是这样看这个产品的,智能音箱是有各种各样的形态,我们做出差异是希望任何一个人都能以极低的成本去享受AI、感受AI带来的便利,产品推出来后发现产品最受欢迎,我们就开始规划新的产品,这款产品是很终端的产品,希望给消费者带来温馨的体验,而且我们希望通过这款产品,给我们的合作伙伴、渠道商去体验,感受天猫精灵带来的便利。
天猫精灵系列产品做到了:1、把优势发挥起来,比如娱乐方面,音箱这块是音乐,所以我们把虾米音乐的版权问题解决了,同时解决了儿童版的问题。在视频端,我们结合优酷,从而去控制、去点播。2、自身优势:本地生活,解决用户交话费、水电费,并可以去天猫超市购买物品。3、智能家居,对于支持阿里云的智能家居企业,天猫将给以一定的支持,目前可连接设备为千万级别。但智能家居方面我认为,蓝牙mac是把智能家居和语音完美连接的协议,其控制很简单。
在传统的WiFi智能家居,需要复杂的链接模式,而蓝牙只需要接近即可链接,从而避免各种复杂的操作模式。而高频设备通常都是可以通过语音控制,比如说灯、插座、风扇、空调等设备。在数年前的控制模式中,通常是利用手机APP通过WiFi控制各类设备,而现阶段,利用语音控制来控制各类设备将会更加简单。
Q:为什么选择智能音箱作为智能家居的入口了?在未来,天猫精灵是否还会做哪些硬件方面的选择了?你们害怕失败吗?或者被淘汰?
A:这个也是我们选择智能家居的一个过程,在我们选择智能家居语音入口的时候,需要从家电产品中选择一个作为突破口,如果是电视、冰箱、空调等产品作为突破口,对于用户而言就需要对该电器进行更换,成本较大。
而利用音箱作为突破口,其周期相对较短,同时用户在拥有一套音箱后还会购买其他品牌音箱作为尝试,其次普通音箱成本并不高。人机交互最基本的因素就是“听和说”,音箱原本就具备“说”的功能,而我们只需要给其增加一个“听”的功能,就具备最基本的与人沟通的能力,再与云端大脑合作,就能完成很多智能的事情。所以这也就是诸多厂商选着智能音箱这一产品。
我们有一个非常核心的思想:我们一定只会做交互的入口。因为我们研究的方向是语音交互,然后是视觉交互,然后到行动力,这些能够给人带来便利并成为交互入口,并能带来交互升级的产品,是我们会去研究的方向,但是我们未来可能会有什么样的产品,如果是一个交互入口,那么我们会尝试去做。
如果不是,那么我们不会偏离,因为我们能做的就是交互,我们优势就是后台的云端、大脑,它们能够处理、分析。创新的路上总会有一些想不到的事情,都会产生失败的情况,但我认为,如果对事件有清晰的认知、对未来有长期的思考,你才能够避免失败。但要确保大体方向是正确的。我们是从语言开始做的,但就目前来说,纯粹的语言交互是不够的。对于人而言,是由五官构成,在未来的趋势上,如何与人更好的交流成为未来的发展趋势,下一步可能是视觉,再往后可能是控制的行动力,而在产品的跌换过程中,我们可能会想着怎么把机器视觉做的更好,如何加上行动力让其更加智能。