亚马逊杀入AI芯片大战,Alexa的野心是当家庭大脑( 二 )


移动端AI芯片对设计的要求截然不同 。 一个根本的要求是控制功耗 , 这就需要使用一些办法(如网络压缩)来提升计算能效 , 同时尽可能少地降低计算性能和计算精度的损失 。
各个厂商纷纷在这两个方向上发力AI芯片的研发 , 当然云端和移动端也无法截然分开 。 比如寒武纪 , 此前研发的寒武纪深度学习处理器是面向大规模神经网络和多种机器学习算法的 , 而2016年推出的寒武纪1A处理器(Cambricon-1A)则是面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备的 。
在云端 , 除了上文的英伟达 , 英特尔在收购Altera之后推出了基于FPGA的专用深度学习加速卡 , 更收购了Nervana , 瞄准为深度学习专门定做和优化的ASIC芯片;收购了Movidius , 其高性能视觉处理芯片将补足英特尔在移动端AI芯片的缺失 。 另外还有IBM的类脑芯片TrueNorth 。 当然还有本文开头讲到的谷歌TPU 。 日前 , 百度又正式推出了XPU , 它是基于百度FPGA的新一代AI处理架构 , 拥有GPU的通用性和FPGA的高效率和低能耗 , 对百度的深度学习平台PaddlePaddle做了高度的优化和加速 。
在移动端 , 谷歌、苹果和三星等都在用专门的AI芯片构建手机 。 微软正在为增强现实耳机专门设计这样的芯片 。 同时从科技巨头谷歌到传统车厂丰田 , 所有人都在进行自动驾驶汽车的研发 , 正需要能够在移动端良好运行的AI芯片 。
比如擅长底层架构改进的苹果 , 其最新发布的AppleX采用了定制的芯片来处理人工智能工作负载 。 这是一个双核的“A11生物神经网络引擎”(A11bionicneuralengine)芯片 , 每秒运算次数最高可达6000亿次 。 该芯片赋能的最重要的事情就是使FaceID身份认证功能能够快速识别人脸 , 从而解锁iPhoneX或进行购物 。
芯片走向定制化 , 以满足AI软件的需求 , 在行业中已经变成一股新的大趋势 。 谷歌已经设计了两代芯片来处理数据中心的AI计算工作负载 。 微软也为未来版本的HoloLens混合现实头盔开发了一款AI芯片 。 在iPhone上安装新的专用芯片意味着主芯片的工作量将会减少 , 从而提高电池寿命 。 否则 , 例如 , 通过手机摄像头进行物体识别同时进行视频录制时 , 可能会迅速地将电池消耗完 。 此外 , 在不久的将来 , iPhone以外的更多移动设备都可能包含针对AI的处理器 。
又如华为 。 在德国IFA2017举办期间 , 华为正式发布全球首款人工智能移动计算平台麒麟970 。 华为方面表示 , 这一带有强大AI计算力的手机端移动计算平台 , 是业界首颗带有独立NPU(NeuralNetworkProcessingUnit)专用硬件处理单元的手机芯片 。 创新性集成NPU专用硬件处理单元 , 创新设计了HiAI移动计算架构 , 其AI性能密度大幅优于CPU和GPU 。 相较于四个Cortex-A73核心 , 处理相同AI任务 , 新的异构计算架构拥有约50倍能效和25倍性能优势 , 图像识别速度可达到约2000张/分钟 。 麒麟970高性能8核CPU , 对比上一代能效提高20% 。 率先商用MaliG7212-CoreGPU , 与上一代相比 , 图形处理性能提升20% , 能效提升50% , 可以更长时间支持3D大型游戏的流畅运行 。
此外 , 中国也有几家公司在进行AI芯片的研发 。 此前腾讯发布的AI产业报告指出 , AI芯片作为产业核心 , 也是技术要求和附加值最高的环节 , 产业价值和战略地位远远大于应用层创新 。 而在这一点上 , 中国和美国的差距还很大 。 报告显示 , 从基础层的芯片企业数量来看 , 中国拥有14家 , 美国33家 , 中国仅为美国的42% 。
国内在AI芯片研发表现突出的企业 , 除上文介绍的寒武纪外 , 还有推出具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片“星光智能一号”的中星微电子 , 致力于软硬件一体化解决方案的地平线机器人 , 以及打造了“深度学习处理单元”(DeepProcessingUnit , DPU)的深鉴科技 。 深鉴科技的目标是以ASIC级别的功耗 , 达到优于GPU的性能 , 目前第一批产品基于FPGA平台 。