dec|芯片的晶体管数量,是如何走到今天?( 三 )


酷睿双核是第一个多核PC处理器
英特尔在2006年发布了Core Duo,这是第一个多核的个人电脑PC处理器。服务器之前已经采用了多核芯片,但该公司将这种方法带到了个人电脑上,为笔记本电脑和台式机提供了两种不同的设计(见MPR 10/3/05,"Yonah做双核的权利")。该公司在其65纳米节点上制造了管芯面积为143平方毫米的台式机版本(Conroe),包装了2.91亿个晶体管。它的频率达到3.0GHz,同时运行32位和64位x86体系结构。在英特尔的高主频NetBurst方法火了之后,Conroe是第一批使用Core微体系结构的处理器之一,该体系结构仍然是该公司目前旗舰CPU的基础。

酷睿双核Core Duo开启了今天的多核运动,并成为中心。通过将两个CPU装在一个管芯Die上以填补其晶体管预算,英特尔大大提升了性能。另一个选择是建立一个更复杂的单核CPU,相对于上一代产品,其尺寸增加了一倍,但这被证明是不可行的。乱序的Core CPU核心集成了一个32KB的指令和数据缓存,四个解码器,一个96个条目的重排缓冲器,以及五个用于内存和算术操作的执行端口。它集成了一个128位SIMD单元,用于加速英特尔的向量(SSE)扩展。

新的双核处理器不仅因其性能而闻名,而且还因其(当时)令人印象深刻的65W功耗TDP等级而闻名。然而,双核模式给软件带来了问题,这些软件被设计为在单个CPU上运行。工程师需要实现多线程编程模型。发布升级的软件花了几年时间;在这期间,很少有用户能看到承诺的性能提升。
Power8将多线程带入一个新的水平
到2014年,多线程软件已经成为常态,但Power8将多线程带到了一个新的水平。2014年发布的它是一个多线程的怪物,包装了12个核心,有96个线程(见MPR 12/29/14,"Power8冲击商业市场")。IBM用22纳米绝缘体上硅(SOI)工艺制造了这颗190W的芯片。即使按照现代标准,它也是巨大的,面积为650mm2,装有42亿个晶体管,如图4所示。这也是第一个可供商业购买的POWER芯片。

dec|芯片的晶体管数量,是如何走到今天?
文章插图

图4 Power8的晶片管芯照片
(在2014年,IBM通过12核,每核4线程将多线程推进到新的高度。22纳米的晶片管芯尺寸是650平方毫米,同时封装了42亿晶体管。(由IBM拍摄的晶片管芯照片))

在设计Power8时,片上存储器成为IBM的重点。该芯片每个内核采用512KB的二级缓存,96MB的嵌入式DRAM(eDRAM)用于L3缓存。eDRAM的使用是独一无二的:它使IBM能够在芯片上集成大量的存储,而单靠SRAM是不可能做到的。即使是巨大的内核数量,Power8的速度也达到了3.6GHz。该设计的特点是具有14个执行单元的特别宽的执行引擎,可以处理分支以及整数、浮点、定点和向量操作。广泛的执行引擎帮助Power8在IPC方面超过了竞争对手。

该处理器仍然让Intel在服务器市场上赚到钱。Power8的价格比英特尔的旗舰产品至强E5-2699v3低30%,提供类似的整数性能和领先的浮点性能。全球的银行家和零售商都受益于定点的十进制引擎,它加速了传统的Cobol软件。尽管有更好的性能和更低的价格,但该处理器缺乏X86兼容性,使其在IBM自己的系统之外没有获得吸引力。
Nvidia A100达到了光照极限(Reticle Limit)
Nvidia的A100最能代表当今的高性能处理器,它使用专门的体系结构在一个流行的应用程序上实现了领先的性能。该公司的GPU已经成为神经网络训练的代名词(见MPR 6/8/20,"Nvidia A100在AI性能方面名列前茅")。在过去十年中,人工智能应用的普及率飙升,触及日常生活的许多方面。但神经网络带来的巨大计算压力造成了对专门硬件的需求。用于数据中心400W的A100 GPU在20年第二季度投入量产,并立即成为AI的热门产品。它具有540亿个晶体管;在7纳米统一中,826毫米的巨大芯片测试了台积电的光照尺寸极限。