查看: 651|回复: 0

[网赚资讯] Alexa语音王国迅速扩张的今天,它最大的挑战是什么?

[复制链接]
发表于 2017-8-11 13:27 | 显示全部楼层 |阅读模式
  2012年8月31日,4名亚马逊工程师提交一份专利申请文件,它最终变成了Alexa,这是一套AI系统,它可以处理世界上最大、最复杂的数据集:人类语音。

  工程师只需要11个单词、一张简单的图表就可以解释它是如何运行的。一名男用户在安静的房间说:“请播放《Let It Be》,披头士的音乐。”一台小小的桌面机器回答说:“没问题,John。”然后它开始播放指定歌曲。

  自此之后,面向家庭的语音AI成为亚马逊的大业务,对于竞争对手而言,它也渐渐成为重要的战略战场。谷歌、苹果、三星、微软都投入了成千上万的研究人员和业务专家,它们都想开发容易使用的设备,让我们与设备对话。

  Witlingo公司开发语音App,为银行、大学、律师事务所及其它机构开发,Witlingo的CEO Ahmed Bouzid认为:“到目前为止,我们所有人必须屈从于技术,比如输入、触击、滑动。现在新用户界面却屈服于我们。”

  自2014年推出以来,Alexa设备销售了几千万台。在美国语音AI设备市场,亚马逊估计占了总销量的70%,虽然竞争压力越来越大。谷歌Home也卖了几百万台,苹果与微软很快也会推出自己的产品。

  最终,企业的目标是抓住3个市场机会:家庭自动化,家庭娱乐,购物。

  就目前来说,亚马逊无意从制造设备的企业手中获得收入,也就是制造智能恒温器、灯泡、其它Alexa联网设备的企业。未来,我们可以想像亚马逊会与企业达成营收分成协议,或者选择其它付费方式。

  在这3个市场中最小的是家庭自动化市场,每年开支超过50亿美元,去年美国的零售销售额总计约为4.9万亿美元。眼下亚马逊通过销售机器赚钱,定价介于50-230美元,最低端的Dots只要50美元,高端的Echos要230美元,上面有视频显示屏。

  有些企业正在开发硬件、开发服务,这些硬件与服务兼容Alexa。例如Capital One,它向银行客户销售Alexa支付系统;多伦多Ecobee制造Alexa智能恒温器,用户只需要说几个单词就可以调高或者调低房间温度。

  Ecobee CEO Stuart Lombard说:“我们的客户生活很忙碌。”现在该公司销售Alexa设备有40%的营收来自海外,Ecobee成立已经10年,Alexa设备是公司增长最快的产品线。

  Stuart Lombard还说:“客户必须穿过繁忙的交通车流回到家里,他们必须喂孩子,必须给孩子换尿布,还要干其它各种事。我们让他们将事情做完,不需要用到手,他们可以用手干其它事。”

  当语音遇到AI

  语音AI面临很大的技术挑战,因为我们说话时并不是井然有序的,我们会干扰自己,想法会动摇,我们使用单词的方式很奇怪,还会点头,发出咕哝声,我们会假设自己的话是有意义的,实际上没有。

  几千名亚马逊员工正在解决这个问题,包括西雅图、Sunnyvale、加州、剑桥、马萨诸塞的研究中心。尽管如此,亚马逊还嫌不够,最近它为1100多个Alexa职位招募员工,涉及到十多个部门,当中有215个职位提供给机器学习专家。在剑桥办公室内,Alexa首席科学家罗希特·普拉萨德(Rohit Prasad)接受了媒体采访,他解释了自己的团队为何需要这么多人。

  普拉萨德说:“你提问的每一个方面都让我发笑。”沉思几秒之后,普拉萨德解释说,他在语音技术方面研究了20年,在这段漫长岁月的大多数时间里,进展缓慢让他感到沮丧。但在过去5年里巨大的机会开放了。创造一个真实高效的语音AI是一项复杂的、从未被征服的任务。

  在过去的岁月里,语音科学家一直想解决一件事,理解混乱表达的意义,最开始时表达有些混乱,很难搞清表达的意思,有了机器学习这样的新方法,我们用不同的策略取得进步,最开始时匹配是不完美的,机器人从不完美着手,然后通过临时猜测不断优化。

  关键在于消化大量的数据,从早期的错误中学习。Alexa与用户相处的时间越多,收集的数据也就越多,可以学习的数据也就越多,也就会变得越聪明。进步越大机会越大,这个过程需要大量的人力。

  这就是普拉萨德的解释。

   gt0nzrwjikpqpclw.jpg

  普拉萨德说:“让我举个例子。如果你问Alexa:‘Adele的第一张专辑是什么?’回答应该是‘19’。如果你说:‘播放它。’Alexa足够聪明,知道播放那张专辑。”

  如果你在中间加入其它一些话,如果你问Alexa这张专辑是哪年发行的,卖了多少张,会怎样呢?将问题替换“播放它”这个命令,早先的Alexa处理不了。现在技术可以跟着思考前进,至少某些时候是可以的,它知道“它”指的是“19”。

  这是一个重要进步,进步归功于机器学习,之前 Alxea也被无数的交换难住,机器学习可以从失败中学习经验。系统知道用户不想听什么歌曲,知道之前的对话最早在何时谈到这首音乐。

  MIT口语语言系统研究团队的主管James Glass说:“人们会以何种方式要求获得一些东西,你最开始时要做出假定。然后你要收集数据,调校模型。”

  Glass说,这种类型的机器学习方法得到了广泛的认可,不过要让它运行需要大量数据,远不是大学研究人员轻易就能获得的。

  由于Alexa的崛起,亚马逊现在可以获得大量的人机语音交互信息。2016年,Alexa引进一个庞大的数据库,里面全是歌曲歌词,有了这个数据库,当用户要求播放歌词中带‘drove my Chevy to the levee’的歌曲时,系统知道用户要的是Don McLean的歌曲《American Pie》。

  普拉萨德正在推行一个新项目,这个项目的关注重点就是新方法的灵活性。具体来讲就是用户撤销最初的请求时,系统要正确识别。用户使用的“信号短语”是大不相同的。一组人说:“不,不,不。”还有一组说:“取消它。”第三组人说的话类似于“等等,实际上我想要的是……”,形式有所变化。Alexa没有必要破解每一种表达。有了大量的样本和半监督机器学习技术,系统可以为否定语音找到大量可能的标记,请求改变之后能挑选出明确的新请求。

  为了让Alexa成为更好的倾听者,亚马逊AI专家首先用大量数据训练系统,让它成为更好的说话者,他们对机器合成的女性声音进行优化,让节奏更完美,这样就可以刺激用户持续使用。

  如果使用的是传统方法,一般会录制大量的人类语音片段,然后依赖片段合成语音。使用这种技术可以生成更自然的声音,但是无法低语、无法讽刺、无法调整,而人类许多时候会这样说话。

  为了让Alxea可以处理一切任务,既可以进行活跃的对话,也可以完成平静的朗诵,亚马逊机器学习算法采用了不同的方法,它用专业解说员的声音训练系统,这些声音有的焦急、有的充满忧虑。亚马逊旗下有一家公司Audible,它是有声读物出版商,这家公司帮了大忙。

  有太多想说的东西

  有些人是语音AI的热心用户,那就是无法在平板手机上轻松输入的人。Gavin Kerr是Inglis的CEO,这家公司向残疾人提供住房和服务,公司已经在8户居民的家中安装了Echo和Dot设备。

  如果测试完成,Gavin Kerr希望300多位居民全能安装,这是公司的全部客户。Kerr说:“它为居民带来了难以置信的好处,他们可以过得更舒适,可以获得独立性。”

  Kerr与几百人合作,这些人患有硬化症或者其它日渐让人衰弱的疾病。有些人卧床不起,或者坐在轮椅上,因为很难碰到墙壁上的恒温器,他们深感苦恼。

  Kerr解释说:“他们的身体难以适应温度。呆在华氏72度的房间内,前一小时可能会觉得太热了,后一小时又觉得太冷了。”因为移动能力受到限制,他们很难让自己过得舒服,如果没有全天候援助,他们会过得更困难。

  稍加修改,Alexa软件可以用特定语音提供服务。有一名男子,快40岁了,他想离开长期看护机构,回到日常社区生活。Kerr回忆说:“他告诉我:‘我没有办法使用Alexa语音命令。’我问他:‘你能说什么?’然后我们就修改了软件,可以让他按自己的方式用语音控制设备。现在他如果要打开厨房灯泡会说‘Mom’,如果想打开浴室灯会说‘John’。”

  Inglis为自己的Echo用户提供培训,时间只有4小时,许多新用户会进一步探索。从盒子里拿出Echo,包装会告诉用户一些常见的操作指令,比如播放音乐、设置闹钟、更新购物清单。

  用户可以在智能手机、平板上调用Alexa控制面板,调整设置,还可以下载新App,面板还会引导用户,看看哪种提示音能让App的工作变得更好。

  每周(有时频率更高)Alexa总经理罗勃·普契尼(Rob Pulciani)都会查看统计数据,这些数据可以告诉他Alexa、Dot用户最常用的表达是怎样的。一般来说,清单中排名靠前的表达都是想获得音乐、新闻、天气信息、交通信息、游戏。今年春天,有一个请求迅速爬升,这是一个短语:“Alexa,帮我放松一下。”

  当用户提出这样的请求时,系统会播放一些声音安抚用户。可能是鸟叫,可能是波浪轻敲海滨,可能是货运车穿过黑夜。如果用户愿意,这些噪音式的环境声会连续播放几小时。

  2015年,当类似的App出现在Alexa平台时,普契尼觉得纯粹只是搞怪。不过这些App很快就吸引了一大堆用户。压力大的成年人听着这些声音入睡,父母将它们当成摇篮曲,安抚古怪的婴儿。发现这一趋势之后没过几周,普契尼就与同事对Alexa的内容架构进行调整,这样一来当新用户问系统有什么新“技能”可以尝试时,他们能够快速找到让人放松的声音。

  持续对话

  谷歌、苹果、微软、亚马逊的AI平台有着不同的优势。谷歌助手在搜索指令方面表现最好。苹果Siri和微软Cortana有其它一些优点。至于Alexa,它的购物指令特别出色。

  如果语音AI想获得最终胜利,必须与用户进行交流,这种交流长达几分钟,非常真实。任务艰巨,机器的能力必须很强大,能够判断人类说话者的意图,甚至能够识别不明显的请求。

  当朋友说:“我几周没有去健身房了。”人类知道他的意思可能是想谈谈压力或者自尊。对于AI软件而言,这种意图很难明白。突然转换话题,AI也很难跟得上节奏。

  为了与下一代AI、语音研究人员建立更强的联系,一年前亚马逊邀请几十所大学的工程学学生开发语音机器人,亚马逊要求机器人可以完成20分钟的对话。在11月截止日期之前突破最大的学校将会拿到50万美元奖金。

  我花了一周时间对将近5款机器人程序进行测试,每一次都从简单的问题开始,然后进入巧妙的开放式陈述,陈述的只是观点,回应有很多的可能性。开始时还是不错的,机器会问你:“看了最近上映的电影吗?”我说:“看了。我们看了 《隐藏人物》(Hidden Figures)。”

  这部电影讲述的是NASA成立之初的故事,接下来,聊天机器人模仿报纸对电影发表评论,它说:“我认为在实际数学方面《隐藏人物》有点浅薄。”我对这部电影没有这样的感觉,看起来这样表述对于AI程序而言还是很不错的。很快对话就进行不下去了,不过至少还有之前刹那的美妙时光。

  可惜,没有一款聊天机器人程序能够完成任务。最让人困惑的是机器会说:“你喜欢路边餐饮吗?”而测试时我们谈的却是网站。

  几天后,我问普拉萨德,让他谈谈对社交机器人的看法,早期的失败没有困扰他。普拉萨德说:“这是一个超级重要的领域。如果达到这样的水平,那么Alexa将是非常聪明的。要达到很难,比围棋或者国际象棋难。在这些游戏中虽然可能性的棋步很多,但是我们知道最终目标是什么。如果是对话,你不知道对方想达成怎样的目的。”如果Alexa能够解决这个问题,我们就可以与它真正对话了。
温馨提示:
1、本内容转载于网络,版权归原作者所有!
2、本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
3、本内容若侵犯到你的版权利益,请联系我们,会尽快给予删除处理!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

客服QQ/微信
3695731699 周一至周日:09:00 - 22:00
十五年老品牌,学习网上创业赚钱,首先千创网,值得信赖!
千创网 版权所有!

本站内容均转载于互联网,并不代表千创网立场!
拒绝任何人以任何形式在本站发表与中华人民共和国法律相抵触的言论!

信息产业部备案号 鄂ICP备2024043288号

小黑屋|广告服务|加入vip|APP下载|手机版| 千创网

GMT+8, 2024-12-24 09:01 , Processed in 0.211714 second(s), 35 queries .

快速回复 返回顶部 返回列表