今年10月,IBM发布了旗下首款人工智能计算单元(Artificial Intelligent Unit,AIU)片上系统 。
这是一种专用集成电路 (ASIC),旨在更快、更高效地训练和运行需要大规模并行计算的深度学习模型 。
AIU:专为现代AI计算打造
在过去多年来,业界主要是利用CPU、GPU来运行深度学习模型,但是随着人工智能模型的数量正呈指数级增长 。
同时深度学习模型也越来越庞大,有数十亿甚至数万亿的参数,需要的算力也是越来越高,而CPU、GPU这类传统架构的芯片的AI算力增长已经遇到了瓶颈 。
文章图片
△深度神经网络对于算力的需求增长迅速
根据 IBM 的说法,深度学习模型传统上依赖于 CPU 和 GPU 协处理器的组合来训练和运行模型 。
CPU 的灵活性和高精度非常适合通用软件应用程序,但是,在训练和运行需要大规模并行 AI 操作的深度学习模型时,CPU却处于劣势 。
GPU最初是为渲染图形图像而开发的,但后来该技术发现了在AI计算中使用的优势 。
但是,CPU和GPU都是在深度学习革命之前设计的,现在他们的效率增长已经落后于深度学习对于算力的指数级增长,业界真正需要的是针对矩阵和向量乘法运算类型进行优化的通用芯片来进行深度学习 。
基于此,IBM Research AI Hardware Center在过去五年中一直专注于开发下一代芯片和人工智能系统,希望以每年将人工智能硬件效率提高 2.5 倍,并能够在 2029 年以比 2019 年快1000倍的速度训练和运行人工智能模型 。
最新AIU芯片则是IBM推出的首款针对现代 AI 统计数据定制的芯片 。
IBM表示,AIU是专为加速深度学习模型使用的矩阵和向量计算而设计和优化 。AIU 可以解决计算复杂的问题,并以远远超过 CPU 能力的速度执行数据分析 。
那么IBM AIU是如何实现针对深度学习优化的呢?答案是:“近似计算”+“简化人工智能工作流程” 。
拥抱低精度,采用近似计算
从历史上看,很多AI计算依赖于高精度 64 位和 32 位浮点运算 。IBM 认为AI计算并不总是需要这种精确度 。
它有一个降低传统计算精度的术语——“近似计算” 。在其博客中,IBM 解释了使用近似计算的基本原理:
“对于常见的深度学习任务,我们是否需要这种准确度?我们的大脑是否需要高分辨率图像来识别家庭成员或猫?当我们输入一个文本线程进行搜索时,我们是否需要第 50,002 个最有用的回复与第 50,003 个最有用的回复的相对排名的精度?答案是,包括这些示例在内的许多任务都可以通过近似计算来完成 。”
基于此,IBM 首创了的一种称为近似计算的技术,可以从32位浮点运算下降到包含四分之一信息的混合8位浮点(HFP8) 计算格式 。这种简化的格式极大地减少了训练和运行 AI 模型所需的数字运算量,并且不会牺牲准确性 。
更精简的位格式还减少了另一个对速度的拖累:只需将更少的数据移入和移出内存,即运行AI模型对于内存的占用更少了 。
IBM在其新的AIU芯片的设计当中融入了近似计算技术,使得AIU芯片的精度需求大幅低于 CPU 所需的精度 。较低的精度对于在新的 AIU 硬件加速器中实现高计算密度至关重要 。
AIU使用混合 8 位浮点 (HFP8) 计算,而不是通常用于 AI 训练的32位浮点或16位浮点运算 。较低精度的计算使芯片的运行速度比 FP16 计算快 2 倍,同时提供类似的训练结果 。
虽然低精度计算对于获得更高的密度和更快的计算是必要的,但深度学习 (DL) 模型的精度必须与高精度计算保持一致 。
- 三星的芯片代工业务有多惨?连续两次使用三星代工旗舰芯片的高通|三星的芯片代工业务有多惨?
- 最近有不少爆料都在说华为自研发的麒麟手机芯片|华为麒麟芯片将复活,华为手机将支持5g网络
- deepin|华为公开“超导量子芯片”专利
- 联发科去年就发布了Pentonic2000的芯片|联发科发布pentonic700芯片针对主流4k电视
- vivo|天玑9200+自研芯片V2,vivo下代“双芯影像”解析
- 芯片|比芯片行业更揪心,美日垄断90%,中国花3800亿造不出山寨版?
- it芯片|荣耀80系列再次被确认:关键特性基本清晰,月底发布
- AMD|全球第一颗3nm芯片在中国诞生,值得自豪!
- 操作系统|中国芯片教父张汝京,为国造芯付出巨大价值,最后被赶出中芯国际
- 2022年6月23日|联发科新旗舰芯片——天玑9200新机曝光