录音笔|一支录音笔里的江湖( 二 )


第一,技术完善阶段(2005-2009年),在这个时期,人工智能主要是利用人工神经网络的自学习功能、联想存储功能和寻找优化解能力来对机器学习进行改造,但未实现规模性的应用落地;
第二,应用试点阶段(2009-2011年),主要实现了从理论、竞赛,到软件产品落地并集成应用。比如Alex Graves赢得了2009年ICDAR的3项关于连笔字辨识的比赛,苹果语音助手Siri搭载到了iPhone 4S上。
2011年,Siri通过iPhone的交互界面,对用户发出的语音进行识别,然后对手机操作做出自动回应,这标志着消费级智能终端首次出现搭载了语音识别技术的产品。
第三,应用落地阶段(2011-2016年),一方面,各大智能终端厂商开始不同程度的集成语音助理;另一方面,录音笔细分领域开始全面接入人工智能。
具体的两个案例是,科大讯飞在2016年提出了一种基于深度全序列卷积神经网络的语音识别框架,在实现识别效果大幅提升的同时,解决了解码时延高的问题。搜狗也推出语音交互引擎“知音”,意图让人机交互更加自然。
第四,规模商用、寻求场景突破阶段(2016年-至今),随着AI技术日渐成熟,智能录音笔开始进入场景突破阶段,在老树上寻找新花是这个阶段一众玩家的商业逻辑的本源,也是思考点。
玩家纷争升级“智能手机已经有很强的录音功能了,为什么还要单独购买录音笔?”这是一众智能录音笔厂商亟需回答的首要问题。
这个问题其实很简单,我们先从市场角度切入,根据前瞻研究院报告,我国智能录音笔市场需求呈现快速增长,2019年我国录音笔市场出货量约为468万台,同比增长8.3%,市场规模达23.17亿元,同比增长10.1%。
录音笔|一支录音笔里的江湖
文章插图
图:2015-2019年中国录音笔市场出货量
业内分析人士表示,“按照增速,未来两三年对数码录音笔的存量替换、以及对智能录音笔的增量需求,将进一步扩大智能录音笔的市场规模。”
言下之意,这个市场逻辑是被证明的,类似于手机拍照功能无法代替单反相机,手机的录音功能同样也无法完全代替录音笔。
在日常工作学习中,我们需要同声传译、语音转文字功能,针对录音过程中不同的录音环境,需要有降噪功能,同时针对带口音的普通话或方言,需要有高识别率,在互联网时代,以备份和储存为主的云服务功能也需要提供,且能支持在线编辑,而这些往往是智能手机所无法高质量完成的动作。
如同智能手机解决功能机的痛点一样,在市场的实践中,除了上文提到的科大讯飞与搜狗,还有纽曼、爱国者、索尼、飞利浦等厂商,均不同程度将触角伸到智能录音笔领域。总得来说,目前智能录音笔领域玩家主要分为以下三个流派:
索尼和飞利浦是老派中的硬件玩家,他们是传统录音笔的头部玩家,算是“老炮儿”。在声学方面它们有着很强的技术积淀,比如索尼的随身听、MP3、CD机等都是其中翘楚,代表着一个时代。但他们所缺少的是互联网基因,在人工智能时代,这些传统巨头自身的硬件优势还不足以弥补基因的缺失,在性价比上为用户们所诟病。
纽曼和爱国者算是老派中的性价比玩家,也是国内数码界的份量级玩家。从数码相机、MP3到手机,二者都有不同程度的介入,但市场份额一直欠佳,跨界进入录音笔领域后,也缺少AI语音识别方面的技术沉淀,走的主要是性价比路线,靠低价博得市场。
科大讯飞和搜狗算是新派玩家,它们的打法有些相似,但也有差异化。
前者在智能语音与人工智能领域已有较多落地场景,其中车载端已经发布到第四个版本,切入到智能录音笔市场后,就开始了高中低端的全系开发,目前已完成了初步布局;后者的语音识别技术源于输入法,缘由搜狗输入法在PC端和手机端占有率一直不错,在输入习惯、输入数据等方面有一定优势,到了移动互联网时代,搜狗在硬件方面稍显不足,智能录音笔算是搜狗的试水之作,代表产品是C1/C1 Pro/C1 Max,具体表现还有待评估。