智能语音,未来商业变革最锋利的切片 拾荒皂斗

 行业动态     |      2019-10-17 22:49

出品/新摘商业评论

近日,一份来自大西洋彼岸的报告成为很多人关注的焦点。

这份由美国知名投资机构Mangrove Capital Partners发布的《2019年亚美国际app语音技术报告》指出:2025年语音经济规模或将达1万亿美元,正式超过移动应用经济。

人们早已经捕捉到了某种信号。

过去几年,谷歌、微软、亚马逊、百度等全球科技巨头纷纷押注语音赛道,投影在人们面前的是接踵而至的明星语音产品 Echo智能音箱、Siri智能语音助手、Google Assistant谷歌语音助手、Cortana人工智能助理、Alexa语音识别引擎、百度小度助手。

一个明显的感觉是,语音识别正在成为人类与互联网沟通的新主流方式。

但热火朝天、寸土必争的抢跑下注背后,人们不禁会想到那个柏拉图式的问题:智能语音到底是什么?它从哪来?又要到哪去?

科技巨头抢滩智能语音

从历史中不难找到关于语音技术的 蛛丝马迹 。

早在80年前,首个能够合成语音的机器诞生于美国新泽西州茉莉山上的贝尔实验室,如果把语音技术的发展看成一条射线,那么这个被誉为世界上最伟大的实验室可以看作是它的起点。

两年后的1954年,蓝色 巨人 IBM与乔治城语言学家合作成功研制出一台能够把60句俄语话翻译成英语的机器。而在不久后,第一个基于计算机的语音合成系统面世,语音技术就此开始被叠加着与日俱增的想象。

人类最不缺乏两种能力,一种是想象力,另一种是创造力。但即使用几十年后的今天来看当时,也很难预测出语音技术的发展轨迹。

当然,更难想到的是,这将成了一个全球的角斗场。

对于智能语音技术,坊间有一个颇为形象的比喻 遥控中枢。在一切都趋向具像化的如今,语音自然成了下一个产品形态的 摩斯密码 。谁能制定密码规则,谁就能掌控全局。

这是一场持久战。

纵观当下世界智能语音交互市场的几大主要玩家,百度从2010年开始做语音技术,如今已近十年;美国的亚马逊Alexa花了二十二年;即便是诞生最晚的谷歌Google Assistant也有着近十余年的数据沉淀。

骐骥千里非一日之功。掩藏在如今颇具智能化的Siri、谷歌助理、微软小娜以及百度小度背后的是这个行业高筑的技术护城河。

今年年初,百度公布了语音领域的四项重大技术突破,其中,在线语音领域全球首创的流式多级的截断注意力模型,被业界人士将该项技术突破评价为技术领域的 登月计划 。

在刚过去不久的AI开发者大会上,百度展示的一项 全双工免唤醒 能力,又一次刷新了目前人机语音交互智能程度的上限。全双工免唤醒能力是小度助手5.0的重要技术革新,在全双工状态下的小度,除了能实现免唤醒词连续对话之外,还有一个非常关键的技术突破,称之为 拒绝反应 ,即小度知道什么时候该应答和执行任务,什么时候只需要听着,不搭话、不反应 简单说,语音技术的突破,让机器的表现更逼近 真人 了。

在现场,观众们感受到的只是更顺滑的对话、更懂事儿的智能印象,但背后却是诸多学术难题的一一攻克。

去年公布的第二十届中国专利评审结果中,百度的语音、机器翻译、无人车相关三项专利获奖,成为人工智能领域至今为止在国内专利界获得的最高级别政府奖项。在此之中, 语音专利 涉及的新语音识别模型 采用深度学习算法在24时内对数以百亿级的大规模数据进行实时分析,高性能计算,令语音识别技术的准确率达97%,解决了语音识别领域关键性、共性的技术难题,被MIT 评为 2016年全球十大突破技术 。

在AI开发者大会上,百度还推出了针对远场语音交互的鸿鹄芯片,可以实现远场阵列信号实时处理,高精度超低误报语音唤醒以及离线语音识别。另一边,百度旗下的明星产品小度智能音箱在今年第一季度更是达到了330万台的超高出货量,位居中国市场榜首。显然,百度正在建立从硬件底层芯片、到上层的智能硬件系统,再到系统软件,语音客户端,语音服务器及后端交互一体化的全链路语音交互技术。

可以肯定的是,下一个十年,语音技术将成为新的决定性主题。

技术+场景 才是王道

人工智能发展至今共历经了三次浪潮。

第一次浪潮使用算法建立了推荐引擎,提供访问互联网服务,推动了谷歌、亚马逊和Facebook的崛起。

第二次浪潮帮助企业利用结构化数据去优化决策流程,带动了类似Palantir这样的大数据公司的出现,它们挖掘大量结构化数据,找出人眼和人脑难以发现的信息关联性。