导航菜单

科技巨头的语音生意经

  00:52

  来源:砍柴网

技术巨头的语音业务

语音识别正在成为人与互联网之间新的主流通信方式。

制作/新业务评论

写/命令牧师

最近,大西洋彼岸的一份报告成为许多人关注的焦点。

美国着名投资机构MangroveCapitalPartners发布的《2019年语音技术报告》(以下简称报告)指出,2025年语音经济规模可能达到1万亿美元,正式超越移动应用经济。

人们已经发现了某种信号。

在过去几年中,谷歌,微软,亚马逊,百度等全球科技巨头纷纷打赌音轨。预测在人们的明星语音产品面前 - Echo智能扬声器,Siri智能语音助手,GoogleAssistant Google语音助手。 Cortana(微软小娜)人工智能助手,Alexa语音识别引擎,百度小助手(DuerOS)。

一种明显的感觉是语音识别正在成为人与互联网之间新的主流通信方式。

究竟什么是聪明的声音?它从何而来?你要去哪里?

一个

技术巨头急于发出聪明的声音

从历史来看,找到关于语音技术的“集群”并不困难。

雷,那么这个被称为世界上最伟大的实验室可以看作是它的出发点。

1954年,蓝色的“巨人”小发猫与乔治城语言学家合作开发了一种能够将60个俄语单词翻译成英语的机器。不久之后,第一个基于计算机的语音合成系统被引入,语音技术开始与越来越多的想象力叠加。

人类最缺乏两种能力,一种是想象力,另一种是创造力。然而,在使用数十年之后,当它被使用时,很难预测语音技术的发展轨迹。

当然,更难以认为这将成为一个全球舞台。

对于智能语音技术,车间有一个相当具象的比喻 - 遥控中心。如今,一切都变得越来越具有代表性,声音自然成为下一个产品形式的“苔藓代码”。谁可以制定密码规则,谁可以控制整个情况。

这是一场持久战。

在全球智能语音交互市场的当前主要参与者中,百度自2010年以来一直从事语音技术,现在已经有近十年的时间了。亚马逊亚马逊Alexa已经用了22年;即使是最新的Google GoogleAssistant也已将数据存入近十年。

一千英里不是一天的工作。隐藏在现在智能的Siri,Google智能助手,微软小娜和百度小都背后是业界的高科技技术护城河。

今年年初,百度在语音领域宣布了四项重大技术突破。其中,世界上第一个流式多级截断注意模型(SMLTA,简称“Streamingtrancatedmulti-layerattention”)被业界采用。技术突破评估是技术领域的“登月计划”。

在最近的AI开发者大会上,百度展示了“全双工免费唤醒”功能,再次刷新了目前人机语音交互智能的上限。全双工免费唤醒功能是Minor Assistant 5.0的重要技术创新。

在全双工状态下,除了连续无唤醒对话之外,还有一个非常关键的技术突破,称为“拒绝响应”,即当您知道如何响应和执行任务时。什么时候你只需要倾听,不要说话,不要做出反应 - 简单地说,语音技术的突破使得机器的性能更接近“真人”。

在现场,观众只能感受到更平滑的对话,更明智的感觉,但背后是一系列学术问题。

在去年宣布的第20届中国专利评审结果中,百度与语音,机器翻译和无人驾驶汽车相关的三项专利在人工智能领域获得了政府最高奖项。

其中,新的语音识别模型涉及“语音专利” - 利用深度学习算法分析24小时内数百亿大规模数据的实时分析,高性能计算,语音识别技术的准确性Up 97%解决了语音识别领域的关键和常见技术问题,被麻省理工学院评为“2016年全球十大突破技术”。

在人工智能开发者大会上,百度还推出了用于远场语音交互的宏盛芯片,可以实现远场阵列信号的实时处理,高精度超低误报警语音唤醒和离线语音承认。

另一方面,百度的明星产品 - 小型智能扬声器在今年第一季度达到了330万台的超高出货量,在中国市场排名第一。

显然,百度正在构建从硬件底层芯片到上层智能硬件系统到系统软件,语音客户端,语音服务器和后端交互的全链路语音交互技术。

可以肯定的是,语音技术将成为未来十年的新决定性主题。

两个

“技术+场景”是王者。

人工智能的发展经历了三次浪潮。

第一波使用该算法构建推荐引擎,提供对互联网服务的访问,并促进谷歌,亚马逊和Facebook的崛起。

第二次浪潮帮助公司使用结构化数据来优化决策过程,推动像Palantir这样的大数据公司的出现,这些公司利用大量结构化数据来查找人类和人类难以找到的信息相关性。

现在第三波人工智能已经出现,人工智能已经获得了眼睛,耳朵和无数其他感官,收集了前所未有的新数据,然后利用这些数据推动更复杂的过程自动化。

这种变化明显不同于过去。正如李艳红最近在《人民日报》发表的一篇文章中所说,“作为引领这一变革的战略技术,人工智能将比以往的工业革命对世界产生更大的影响。”

确实如此。在人工智能的大潮中,许多领域的现有模型已经被重塑,应用场景不断被颠覆,生产关系已经开始重新制定。

其中,声音是一个非常重要的部分。

从语言和屏幕的限制中解脱出来,语音技术从根本上改变了人们与软件交互的方式,并且可以完全取代移动应用程序作为未来的主要通信方式。

如果人和移动应用程序之间的交互现在是二维的,那么语音交互是三维的。而这种竞争的竞争也纠缠在互联网的商机中。

语音技术领域不断增加的融资额是最明显的例子。根据报告数据,语音技术创业公司今年的融资额达到7.86亿美元,远超2018年的5.81亿美元和2017年的2.98亿美元,各项融资规模也在大幅上升。

百度是当之无愧的领导者。

作为最早部署人工智能的技术公司之一,百度拥有基于超大规模神经网络,万亿级参数和数千亿样本的人工智能算法,依靠数十万台服务器的计算能力和中国最大的GPU集群。

作为中国最大的搜索引擎公司,百度还收集了大量中文(特别是普通话)的音频数据,为百度语音识别系统DeepSpeech2技术提供了基本的数据优势和支持。

百度美国人工智能实验室负责人亚当科茨表示,截至2017年2月,DeepSpeech2的短语识别词错误率降至3.7%,转录某些声音的能力基本上是“超人”。比母语使用者更准确地转录较短的查询。

吸引外界关注的是基于语音识别,图像识别,自然语言处理,用户肖像等技术能力的小型人工智能语音助手(DuerOS对话人工智能系统) - 百度技术大师。

从2015年的“秘密”到2017年DuerOS的发布,再到2018年发布的一系列小型智能硬件产品。小型人工智能语音助手保持稳定的迭代率,不断整合新功能,以开放的态度构建软硬的AI生态系统,更好地为合作伙伴服务,成为名副其实的“智能中心”。

从技术到产品,从产品到下游合作伙伴,可以看出百度的智能语音系统已初具规模。技术与特定场景相结合,在智能语音交互技术领域,百度正在扮演着“标准”的角色。

语音,煽动未来业务的关键

通用电气的前首席执行官杰克韦尔奇被认为是二十世纪最杰出的首席执行官,他在自传中写道:“如果你想开一辆汽车再行驶十公里,就加油门,提高速度。”加倍,有必要改变赛道。“

事实是商业轨道正在转变。

《2019语音技术报告》有这样一种观点:“语音交互颠覆了过去人机交互的存在,并开始建立基于用户和设备之间语音交互的新关系。就像之前从互联网到移动互联网,其新要求也在酝酿之中。“

从业务发展模型的角度来看,有两种类型的变化,一种是自上而下,另一种是自下而上。前者需要市场快速调整其地位,并迅速采用新的安排来应对新的变化;后者重新体验,形状变化更安静,但更坚韧,更耐用。

语音技术对业务形式的影响就像后者。

让我们对未来的商业原型做出预测:在未来的某个时刻,我们不再需要打字,但我们可以使用语音盒手势,键盘基本上消失了,在语音技术的祝福下,产品形式将会彻底改变了。无屏智能手机,语音电子商务,语音广告,个性化品牌声音.

这种预测正在发展成为现实。

根据瞻博网络的数据,在美国和英国,语音电子商务将在未来几年内引发集中爆发,规模将从2018年的20亿美元增加到2022年的400亿美元。

亚马逊的语音广告业务也在同一页面上。有消息称,亚马逊正计划开发Alexa语音助手的商业价值,然后建立大型数字广告业务,测试各种广告产品,包括视频,以准备2018年广告收入的增长。

频繁布局的背后是确定语音技术的商业价值。

虽然目前智能语音技术还存在许多问题,但此时,布局先进,技术基础已经建成。当波浪再次出现时,它将能够利用这种情况。

从原始文章转载:

仅提供信息存储空间服务。

读()

投诉