深度研报：人工智能机器人开启第四次科技革命( 七 ) 图片来源@视觉中国文|光锥智能

图像理解：图像理解本质上是图像与文本间的交互，可用来执行基于文本的图像搜索、图像描述生成、图像问答（给定图像和问题，输出答案）等。图像理解任务目前还没有取得非常成熟的结果，商业化场景也正在探索之；
总体而言，计算机视觉已经达到了娱乐用、工具用的初级阶段。未来，计算机视觉有望进入自主理解、甚至分析决策的高级阶段，真正赋予机器“看”的能力，从而在智能家居、无人车等应用场景发挥更大的价值。
2.2语音识别
第一个真正基于电子计算机的语音识别系统出现在1952年。 1980年代，随着全球性的电传业务积累了大量文本可作为机读语料用于模型的训练和统计，语音识别技术取得突破：这一时期研究的重点是大词汇量、非特定人的连续语音识别。 1990年代，语音识别技术基本成熟，但识别效果与真正实用还有一定距离，语音识别研究的进展也逐渐趋缓。
随着深度神经网络被应用到语音的声学建模中，人们陆续在音素识别任务和大词汇量连续语音识别任务上取得突破。而随着循环神经网络（RNN）的引入，语音识别效果进一步得到提升，在许多（尤其是近场）语音识别任务上达到了可以进入人们日常生活的标准。以AppleSiri为代表的智能语音助手、以Echo为首的智能硬件等应用的普及又进一步扩充了语料资源的收集渠道，为语言和声学模型的训练储备了丰富的燃料，使得构建大规模通用语言模型和声学模型成为可能。

文章图片
与语音识别紧密关联的是语音处理。语音处理为我们提供了语音转文字、多语言翻译、虚拟助手等一系列软件。一个完整的语音处理系统，包括前端的信号处理、中间的语音语义识别和对话管理（更多涉及自然语言处理），以及后期的语音合成。
前端信号处理：语音的前端处理涵盖说话人声检测、回声消除、唤醒词识别、麦克风阵列处理、语音增强。
语音识别：语音识别的过程需要经历特征提取、模型自适应、声学模型、语言模型、动态解码等多个过程。
语音合成：语音合成的几个步骤包括文本分析、语言学分析、音长估算、发音参数估计等。基于现有技术合成的语音在清晰度和可懂度上已经达到了较好的水平，但机器口音还是比较明显。目前的几个研究方向包括如何使合成语音听起来更自然、如何使合成语音的表现力更丰富，以及如何实现自然流畅的多语言混合合成。
2.3自然语言处理
早在1950年代，人们就有了自然语言处理的任务需求，其中最典型的就是机器翻译。到了1990年代，随着计算机的计算速度和存储量大幅增加、大规模真实文本的积累产生，以及被互联网发展激发出的、以网页搜索为代表的基于自然语言的信息检索和抽取需求出现，自然语言处理进入了发展繁荣期。在传统的基于规则的处理技术中，人们引入了更多数据驱动的统计方法，将自然语言处理的研究推向了一个新高度。
进入2010年以后，基于大数据和浅层、深层学习技术，自然语言处理的效果得到了进一步优化，出现了专门的智能翻译产品、客服机器人、智能助手等产品。这一时期的一个重要里程碑事件是IBM研发的Watson系统参加综艺问答节目Jeopardy 。机器翻译方面，谷歌推出的神经网络机器翻译（GNMT）相比传统的基于词组的机器翻译（PBMT），在翻译的准确率上取得了非常强劲的提升。