如何打造一款亚马逊Echo式的爆款智能音箱?

2017-03-23 13:38:44     作者:芯智讯      来源:Ofweek

标签:

下文将为大家介绍的就是如何来开发一款类似Echo的智能音箱。

作为智能音箱产品的杰出代表,亚马逊Echo自2014年年末发布以来,一直备受市场热捧。据了解,2015年亚马逊Echo卖出了400万台,2016年卖了800万台,2017年销售目标更是上了1000万台。这也让其他很多智能音箱厂商羡慕不已。

对于亚马逊Echo来说,其核心技术则是其集成的智能语音助手Alexa。而早在2015年6月25日亚马逊就宣布,将开放智能语音硬件Echo的内置AI助手Alexa的语音技术,供第三方开发者免费使用。随后,亚马逊发布了针对第三方开发者的版本,用户可以通过其他电子设备操控Alexa,而不必通过Echo。这也使得很多第三方智能音箱厂商有机会利用Alexa打造一款与亚马逊Echo类似的智能影箱。

下文将为大家介绍的就是如何来开发一款类似Echo的智能音箱。

由于我本人专注wifi音响已经有五年的历史,对WIFI音响的技术比较熟悉,所以最近接待了很多北京上海深圳的大公司的产品经理上门来请教,发现大家对Echo的研发还处在没有研究过的阶段,对Echo这款产品还只是停留在以一款蓝牙音响的认识去理解Echo这款智能语音识别音响。所以,我今天把我的技术开发,资源整合,市场情况,未来发展的积累给大家分享,减少大家的疑惑。

亚马逊Echo的历史

首先简单介绍一下亚马逊的echo这款产品,这款产品是亚马逊耗费了2000人的研发团队,历时4年打造的产品。

在此之前不得不提一提它的前辈——SONOS音响。SONOS音响是美国的一个成立于2002年历时6年研发打造的产品,这家公司的核心技术成员来至于美国一家高科技通讯公司——高通Qualcomm。6年的技术攻关将WIFI的带宽高,高保真无损传输和解码,多台设备互相(利用wifi宽带宽,将几台音响连接到同一个局域网实现同时播放同一首歌,营造出给无线环绕声的效果);同时,利用其音乐云服务控制的技术交换和商务合作,SONOS音响的APP集成了美国,中国,欧洲主流的音乐内容服务商资源,比如Pandora,Spotify,QQ music,虾米,多米等丰富的内容资源。其结果是给公司带来了很高的知名度和丰厚的收益。2005年乔布斯在看到SONOS音响时感叹道“这是音响的未来”。长时间的技术研发和投入(据说研发投入2亿美金)给SONOS音响带来了好的收益,单2011年SONOS音响销售额达到近2亿美金。

SONOS音响拥有五款经典产品,包括:三款wifi音响,一款soundbar,一款WIFI桥接器盒子,WIFI中控。但其缺点也很明显:价格贵,体积大,仅仅适合高端消费人群,而且其核心优势multiroom功能只有在别墅才能体现出其优势来。

2010年11月SONOS进入中国,所以从2011年开始中国有了第一批wifi音响的开发者,希望模仿SONOS的成功。而最早的一批开发者是用MTK5350或者高通的QCA9331开始开发的,但无疑都倒在了学习的路上。随后亚马逊也开始介入,并最终获得了成功。

亚马逊的Alexa项目大概开始于2011年,应该是受到了iphone4s语音助手Siri的启发(同时受到启发的还有“讯飞语音输入法”。不得不说,乔布斯真的是一代伟大的产品经理)。至于Echo(Echo tap、Echo、 Echo dot)是Alexa实际应用的最成功的产品。

Alexa是亚马逊投入重兵研发出的语音识别云服务平台。像一个带语音搜索功能的APP Store(主要的功能有智能问答,音乐服务Amazon music、Spotify、Iheartradio等;新闻服务NBC;天气预报服务;打车服务Uber;智能家居服务IFTTT协议的灯等等),到目前为止已经有超过了5000个服务接入了亚马逊的Alexa云平台。

而Echo类似于苹果手机,不仅仅包括硬件,还包括一套基于Linux系统自主开发的操作系统(类似于Mac OS)。

Echo去除了SONOS的笨重,价格贵等缺点,当然最重要的是有Alexa做语音识别后台,产品有卖点,卖得也特别好。其实,Echo已经不单单是一款wifi音响,已经成为了一台家庭智能中心产品,通过不断的采集用户习惯,收集用户问题训练Alexa,让Alexa越来越智能。Alexa也集成越来越多的服务,使得消费者越来越喜欢这款产品。

亚马逊是一家互联网公司,追求的不单是Echo销量的大幅增长带来的几十亿美金的销售额,更在乎的是Echo背后的Alexa代表的人工智能这个未来的庞大市场。所以,亚马逊把Alexa的API接口开放给到全球的开发者,开发者们可以利用Alexa开发出很多不同的硬件产品,比如:Alexa音响,Alexa车机,Alexa耳机等等。

怎么样开发出一款Echo音响产品?

1、硬件:

(1)联网——WIFI芯片或模块(博通、瑞昱、MTK都可以)。

(2)语音算法本地处理单元:主要是解决降噪(背景噪音消除,回声消除);唤醒词唤醒;语音方向识别这几个问题。需要用到MIC阵列(咪头)+ADC(音频模拟转数字信号芯片)+DSP(语音数字信号处理芯片)(一般由CPU模拟运算)。

MIC阵列负责语音的采集。一般来讲MIC越多声音采集的效果越好,但算法也就越复杂,对CPU的主频要求也就越高。

ADC将MIC采集的语音模拟信号转换成数字信号,并物理滤波消除一部分外部噪音,只保留20-20KHZ频段的声音。

DSP负责运行语音数字信号的处理,分两种:一种是用强大的CPU资源模拟运算降噪算法处理语音音频数字信号,一种是用芯片硬件处理的方式最终得到干净的人的语音信息。

处理完成之后,利用wifi信号,将干净的语音信息编码打包上传到云服务器上,然后做进一步的处理(语音识别,语义理解,服务调用)。

MIC的参数主要注重灵敏度和几个MIC的一致性;ADC主要注重的是模拟转数字的采样率,一般亚马逊对人声采样格式要求是44.1KHZ&16bit,这跟音响IIS音频高保真输出的192KHz&24bit的规格不一致,要做到兼容比较困难,尤其是外挂MP3解码芯片的这种方案。

(3)整套音响系统的中央单元:CPU(处理器)+DDR(内存)+Flash(存储)

CPU主要的功能是跑整套音响操作系统。包括Linux底层系统,类似于BIOS即各个硬件的驱动程序——CPU的SDK,WIFI或者蓝牙的驱动,音效DSP处理器驱动(一般是alsa协议),USB驱动,IIS驱动,GPIO的调用等);还有Linux之上的应用系统,类似于安卓系统或者window系统,包括网络上层通讯协议——配网的Smartconfig协议,AP-Station协议;网络数据下传协议Http、DLNA、Airplay、Qplay;网络服务API接口配置Spotify、Alexa,QQ音乐,喜马拉雅音乐等服务;操作系统逻辑控制单元;软解码音频播放器;

此外前面提到的语音算法运算也由CPU完成。一般的CPU是通过IIS接ADC芯片,ADC芯片再接模拟MIC,一路IIS可以接2个ADC,1个ADC可以接4个MIC;但是有些芯片原厂开发了直接支持数字MIC接口的芯片,就省去了ADC芯片的成本,但需要算法去满足这种直接数字MIC的输入。

(4)音频解码单元:一般是CPU跑软Codec解决,也有采用外挂一颗支持IIS接口的MP3的芯片做硬解码。

(5)音效单元:音频DSP+功放+喇叭

音频DSP是需要调试的,尤其有EQ需求的音响调试就更困难,调试完以后把调音参数给到CPU的音乐播放器中。另外,一般的MP3芯片做硬解码的模式的是不能支持音效DSP的。

功放分数字功放和模拟功放,如果DSP带DAC功能的可以接模拟功放,不带的只能接数字功放,现在主流的是用数字功放。由于wifi信号比蓝牙功耗大,功率也就大,带来音效效果影响的可能也就越大,在电路设计和PCB的layout上需要做到信号屏蔽,防止视频电路对音频电路的信号干扰,一旦干扰会由于音频电路的信号放大在喇叭端引入很大的底噪,导致音质效果不好。

(6)电源管理单元:一般会有一颗电源管理IC负责分配从火牛或者锂电池输出的电流电压,Echo没有内置电池,所以不需要有电池充放电管理电路。也可以用DCDC来做出简单的电源供电电路。

2、软件

这里的软件是指音响端的整套系统软件。

现在有用安卓系统开发音响的,也有linux开发Echo的。安卓系统稳定性不如Linux,有很多冗余的功能需要底层裁剪,有可能裁剪错误导致系统不稳定,最大限度的裁剪也会导致系统固件有150MB,至少需要256MB的DDR,需要512MB的nanflash。同时开机速度会比linux系统的音响慢10-15S,用得越久还会产生系统冗余导致运行得越来越慢。所以,无论从器件的成本,系统的稳定性,还是用户的体验上安卓都不适合做wifi音响,这也难怪亚马逊会选择用linux开发Echo音响,虽然开发时间多耗费了两年时间。而linux系统的音响只需要4MB的固件只需要16MB的norflah,64MB的DDR,开机速度可以做到10S以内开机,而且不会产生冗余文件,始终如一的用户体验。所以,SONOS和Echo都是用的linux平台。

这套操作系统包括:

a、各个外围器件的驱动(DSP,按键,AUX、USB结构,IIS,IIC协议),配网,语音算法运行,音乐播放器,内容对接集成,网络传输协议(HTTP,DLNA,Airplay),服务API接口对接等等。

b、本地语音识别的算法,对于算法包括两部分,一部分是本地设备端的降噪,背景噪音消除算法,本地唤醒算法,一部分是云端的语音识别和语意理解算法。我们先将第一部分,设备端的语音识别算法,设备端需要将背景噪音消除,降噪之后得到干净的语音内容。而这有两种解决方式:一是通过科胜讯这种带DSP的ADC芯片通过固化到芯片里面的DSP将ADC转换得到的数字语音信号分析之后通过IIS接口输送给CPU再上传到云端,一个IIS接口可以接两个ADC芯片,每个ADC芯片可以接4个MIC。当然唤醒的算法是本地的一套软件集成到CPU里面——即设备的名字,如”Alexa”这个名字,激活词需要训练的,需要采集至少100多个人不同音色的发音,所以定制激活词会产生费用。二是通过降噪算法和激活词算法全部运行在CPU里面,所以,需要数字MIC将数字语音信号直接接到CPU端。目前能直接接数字MIC的芯片并不多,如全志的G102是可以直接接8个数字MIC的,但需要算法去把8个数字MIC直接调通。

三、云服务

云服务是Echo的重点,包括了人工智能+各种服务,人工智能是负责语意理解和内容搜索并回答的。比如:你问Alexa今天天气怎么样,他会先把你说的话通过本地处理完以后的语音音频文件上传到云端的服务器,服务器将语音信息翻译成文字,然后把文字的关键词找出来,并通过了大数据的训练以后明白这段文字的抽象意思,然后帮你找到对应的答案,这个答案又必须去调用如气象信息的数据库(这个数据库也要支持语音搜索调取才行),最后反馈给音响,音响播报出来:“今天天气晴转小雨,需要带伞哦。”那么这一系列的动作是人工智能,天气信息数据库就是云内容。亚马逊集成了至少5000个云内容,包括天气,音乐,打车,订机票,叫外卖,控制支持IFTTT协议的家电设备等等,并且每天还在增加。人工智能用的人越多,Alexa辨识的准确率就越高,内容越丰富Echo的功能就越强大,人们就越来越离不开它。


四、APP

Echo也有一个APP,可以安装在手机端,负责将Echo联上路由器网络(因为Echo没有屏幕,无法直接输入wifi密码),并且还可以查看到用户使用的历史信息和教育用户怎么用Echo更多的功能。

五、生产

亚马逊不直接生产Echo,而是设计好之后发给代工厂代工生产,亚马逊负责品质验收然后开始销售,主要的销售渠道是亚马逊网店,线下渠道也开始销售。

目前所有公司的产品都需要过亚马逊的认证才能开始销售,不仅仅需要先自己过亚马逊的一个100多项的测试项,签订NDA,而且还需要回答一些问题,如销售渠道是哪些、销量预估是多少等等。

此外,还有MIC的调试,WIFI的测试,软件稳定性的测试。这三个测试项目最复杂的是稳定性测试,MIC的调试最大的影响是有效语音控制的距离,测试的设备比较昂贵,需要专业的MIC厂配合调试,WIFI技术调试得很好,配网成功率高也需要真功夫,比如我们公司的wifi功能就能保证100%连上。2015年我问过微信有个微联的功能,他们说他们网络配置的成功率只有不到60%。

六、成本

几个主要的成本:研发的人员支出、硬件的成本、语音识别算法的license费用、云服务器租用的费用(国内可以用阿里云、国外可以用亚马逊AWS)、内容整合授权费(如百度音乐是每次调取5分钱)。

七、生态

开始做生态之前,大家需要明确一下Alexa和Echo的区别:Echo只是具有Alexa应用的一个成功的产品,未来还会有很多的支持Alexa的产品,如网关、OTT盒子、车机、手机等等。任何支持Alexa功能的设备都会联入到Alexa的云服务上。

目前比较火的三大市场我相信Alexa都有涉足的可能:智能家居,智能汽车,智能手机,未来可能还会有智能穿戴(耳机,手表等)。所以,Alexa会成为一个物联网的大脑,各种设备是他的触手,通过触手不断获得信息训练Alexa让它越来越强大,融入越来越多算法,越来越多内容让Alexa越来越成为家庭、车载、工作的一个服务管家。

所以Alexa具有两个重要属性:人工智能和物联网。深度学习得到更多互联网服务是人工智能,可以控制家电设备(如灯,门)属于家庭物联网。

现在简单讲讲物联网,Echo支持WIFI,在美国物联网的设备之间的通讯协议已经初步建立起了标准——IFTTT,只要支持IFTTT协议并且过来亚马逊认证的设备(灯、门锁等)就可以通过语音来控制关闭客厅的灯,打开窗帘等动作。Echo可以通过云端解析成指令,并回馈到家庭路由器,然后路由器广播这条控制指令,客厅的灯对应一个自己的MAC的IP号,收到这个指令后跟自己的IP号一对,如果是客厅听就会执行这条指令关闭,如果是卧室灯就不执行这条指令。

而实现这些所需要的成本,就是每个灯里面安装一个IoT的wifi模块。这个wifi模块里面的IoT的wifi芯片会自带一颗跑wifi协议栈的MCU,可以接收1MB带宽的wifi信号。所以,智能家居的概念以后就不再是用手机点点,而是直接与音响交流。此外,也可以加入传感器芯片,再加上计时器,通过云端的Alexa深入学习每个消费者使用习惯之后自主做出判断——回家时灯自然开启,背景音乐响起你最近关注的音乐,早上起来窗帘自动开启,音乐响起,播放你今天一天的行程安排,天气情况。这里简单介绍一下IoT模块有(MT7681,RTL8711AF,RTL8711AM,ESP8266,XR871等等)

开发Echo产品最主要考虑的因素有哪些?

1、成熟的软硬件:由于需要linux系统开发,基本全部需要自己开发整套系统,所以开发的难度很大,一般至少要开发一两年时间,而且开发出的系统稳定性也值得思考。

2、成本:毕竟亚马逊的产品售价也才179美金,那么你开发的出厂价不能高于60美金否则通过渠道到销售市场时售价就会超过179美金,会没有竞争优势。

3、过亚马逊的认证:有很多产品在亚马逊手上排队过认证,甚至不乏大品牌的产品,没有好的关系没有明确的销售思路和数据很难打动亚马逊的测试主管优先测试你的产品,长的时间可能是3个月甚至更长短的周期也需要1-2个月。

4、销售市场:亚马逊目前只支持英语,下一步会支持德语,所以只能在美国和英国开卖,其他国家的云服务亚马逊还在建设当中,有很多变异的因素,所以不能够像蓝牙音箱一样全球到处售卖。


怎么开发出一款国内的Echo音响呢?

可选的语音识别技术方案商:语音识别算法公司有科大讯飞,思必驰,云之声,北京声智科技等等;

APP需要自己开发、云内容需要自己整合(国内的内容有QQ音乐,酷狗酷我音乐,喜马拉雅电台,懒人听书等;新闻有网易新闻,今日资讯,天气预报有公有的天气平台,智能回答的数据库有百度智库,更多问题的答案可以自己组建一个团队不断整理新问题的答案,打车有滴滴打车等等)、服务器需要自己开发、深度学习有科大讯飞,思必驰等。算法可以自己找,也可以直接用科大讯飞,思必驰的,但需要付钱。

这么多内容需要整合,让那么多的内容变得不可能,没有一家功能能做完整套云服务,人工智能深度学习,智能硬件,APP这么多事情。更何况产品出来以后还有品牌和销售的事情。

亚马逊投入了2000多人,做了四年才有了今天的结果,科大讯飞耗资1.5亿才做出一个叮咚音响,而且也还只做了其中一部分工作,到最后消费者手中时用户体验也很一般,毕竟只有听音乐,简单的问答,没有其他多的功能。

一家硬件公司需要开发一款中国的echo变得成本极其高。需要研发投入,语音识别付费,内容整合,服务器带宽费用。所以,最多只能像腾讯,阿里巴巴这样有数据又有内容还有钱的互联网公司能做。如阿里巴巴的阿里小智就是一个智能家居的云平台,并且被阿里做成了一个大APP,兼容了各家硬件厂商的设备,WIFI音响只是其中一个类别。这其实并不好,是对广大智能音响品牌厂的一个伤害,因为不管是2000RMB还是200RMB的都是一个样子,功能都一样,不利于市场的良性发展。而且阿里巴巴对市场干预得太多,过认证的标准首先是要有天猫旗舰店,然后单单靠产品的成本判断这款产品的销量并给予不同的支持力度,他们只关心你的产品能给他们带来多少用户量,不太注重用户体验。而这就是其他一些互联网公司的机会,即先做某几类产品的云平台,并做到同类别产品之间允许差异化,最后再做到这些类别产品之间的一种隐互通。

Echo未来的发展

根据亚马逊对Echo用户的大数据分析,目前Echo用户用得最多的是通过语音设定一个闹钟,以及询问个天气情况。消费者迫切需要的功能是可以通话,所以现在亚马逊正在抓紧时间开发出Echo支持通话功能。

同时,智能家居物联网这一块目前Echo的用户体验性也不好,如果家里的wifi一旦断网是完全不能用的,所以Echo在利用intel的芯片开发出本地语音识别+网络语音识别的功能,几百条简单的家居控制指令通过本地语音识别局域网就可以完成,并不需要外网了。

返回沙发首页  
沙发管家微信
扫描关注沙发管家微信 QQ群: 沙发网官方群 微博:

相关文章推荐

热门设备安装方法 查看更多>>

最新设备

智能电视 / 盒子评测

安装指南

应用

热门专题