半导体行业观察最有深度的半导体新媒体|在Chiplet方面，英特尔又迈出一步半导体行业观察最有深度的半

文章图片
【半导体行业观察最有深度的半导体新媒体|在Chiplet方面，英特尔又迈出一步】半导体行业观察最有深度的半导体新媒体，实讯、专业、原创、深度， 50万半导体精英关注！专注观察全球半导体最新资讯、技术前沿、发展趋势。《摩尔精英》《中国集成电路》共同出品，、摩尔芯闻、摩尔芯球
最近几年，因为芯片越做越大，为了提升芯片性能，降低芯片成本，大家都将目光转向了Chiplet 。而从英特尔的最新发布，我们似乎看到，这家芯片巨头在这条路上，又迈出了重要一步。当英特尔高层说明年初推出的“SapphireRapids”XeonSPCPU和“PonteVecchio”XeHPCGPU代表着“十多年来最大的架构转变”时，他们并不是在开玩笑。在本周举办的第三届年度架构日上，我们一次又一次地听到了这一点，对于英特尔的财务和技术未来以及提高数据中心计算和网络芯片的竞争水平来说，这似乎是真的。这让我们想起了很久以前我们从Chesebrough-Ponds（1980年代后期被联合利华收购）的前公司财务总监那里学到的一句——“做任何事情的最佳时间是十年前。第二好的时机就是现在。 ”

文章图片
这句话里没有多少内疚、悲伤或绝望的余地；这是关于行动的。这种前瞻性的情绪是英特尔近十年来迫切需要的一种情绪，也是英特尔首席架构师、现任其新加速计算系统和图形部门负责人RajaKoduri为公司带来的比其他任何人都多的情绪。英特尔的前CTOPatGelsinger ，在今年初则以英特尔首席执行官的身份回归，他将帮助英特尔在芯片制造商的市场中发挥更广泛的作用。他们都是乐观的技术专家，他们也知道如何完成芯片工作。虽然在架构日获得了一些启示，我们也将在未来几天经历——深入探讨两周期“Gracemont”高效核心和“GoldenCove”性能核心的CPU引擎设计、模块化Xe图形芯片设计，以及该公司为“顶级云提供商”设计并正在构建（使用Arm内核）的定制“MountEvans”DPU 。我们现在想要关注的是SapphireRapids和PonteVecchio ，这是英特尔将推出的两个最重要的数据中心组件，它们展示了该公司将在未来十年内创建计算引擎所采取的战略。它们也是阿贡国家实验室延迟已久的“Aurora”超级计算机的核心。是的，如果英特尔在十年前开发并采用其芯片封装技术会更好，因为那样做的话，他们就在摩尔定律工艺收缩开始放缓之前就做好了准备，并且因为时钟的登纳德缩放也已经死了十年。在这成为一个大问题之前，看到这些信号并采取行动，结果肯定会更好。但是，第二好的时机是现在就做。值得称道的是，英特尔终于做到了这一点，我们将在未来几年内在许多不同方面看到英特尔与AMD和Nvidia展开真正的竞争。这对世界上的每个数据中心都有好处。我们将从SapphireRapids开始，然后单独跟进我们现在对PonteVecchio的了解，然后深入研究CPU和GPU计算架构。
从SapphireRapids开始你需要了解SapphireRapids的两个最重要的事情是，它会使用新的高性能核心，原名GoldenCove, ，而且它在芯片间是使用四芯片模块嵌入式多芯片互连桥（EMIB）连接。

文章图片
我们可能不会将SapphireRapids及其后续产品的基本计算单元称为P-Core ，除非其他人开始将其与EfficientCore或E-Core（以前称为GracemontAtom内核）进行对比.长期以来，英特尔一直采用大小核战略，但我们确实预计， XeonSP封装中迟早会出现内核类型的混合以及内存类型的混合。以“AlderLake”开头的Core客户端处理器将混合使用P-Core和E-Core计算。如果您查看上面的SapphireRapids封装，这大致类似于AMD在其第一代“Naples”Epyc芯片上采用的方法，它将四个Ryzen台式机芯片与称为InfinityFabric的HyperTransport-infusedPCI-Express内部互联。通过这样做，英特尔可以摆脱单片芯片设计，因为这种设计很难通过其第二版本的10纳米工艺获得良好的良率，从而降低SapphireRapids插槽的总体成本，即使互连和封装开销不是免费的。我们认为奇怪的是，而且我们将来也会问的是——为什么英特尔没有像AMD在“Rome”Epyc7002和“Milan”Epyc7002芯片那样，把存储控制器和I/O控制器抽出来，并把它们归结到一个Hub芯片中。 EMIB看起来更像是英特尔自“Skylake”XeonSP设计以来一直使用的片上网状网络的扩展器，用于链接内核、缓存、缓存和homeagents(CHA)以及snoopfilters(SF) 。该网状网络于2015年首次用于由矢量增强型Atom内核制成的“KnightsLanding”XeonPhi处理器，并进入Skylake设计以取代以前将内核和缓存捆绑在许多变体上的环形互连。多代至强E5和至强E7芯片。这意味着英特尔可以制造一款针对高性能台式机的高端工作站芯片，例如具有10个内核，并将其中的4个连接在一起，以创建一个40核的芯片，它的外观和风格都像改进的“IceLake”单片芯片。它可以取消XCC或ExtremeCoreCount28核die和UCC或UltraCoreCount40核die ，与具有8或10核的芯片相比，它们的构建成本非常高。目前还没有人知道SapphireRapids封装中使用的tile的die核心数是多少，但英特尔希望在完整配置中尽可能少地变化和尽可能多的核心。我们认为每tile12个内核是一个可能的数字，如果可以在10纳米工艺中完成而不是创建400瓦的部件，那么每tile16个内核会更好。这将使SapphireRapids插槽增加到48核或最多64核，后者与AMD的Epyc7002和7003芯片完全一致。有传言称，该插槽将提供56个内核，即每tile14个内核。我们强烈每个tile上可能有16个内核，并且有两个内核被献良率之神。我们想知道通过在网格而不是在内存控制器上链接是否存在NUMA延迟损失。 SapphireRapids封装的首席工程师NevineNassif在架构日的演讲中谈到了这一点。 “SapphireRapids的核心是一种新的模块化、平铺架构，它使我们能够将Xeon架构的界限扩展到物理网线之外， ”Nassif解释说。 “SapphireRapids是第一款使用EMIB构建的至强产品， EMIB是我们最新的55微米凸块硅桥技术。这项创新技术使独立的tile能够集成到封装中以实现单个逻辑处理器。由此产生的性能、功率和密度可与等效的单片芯片相媲美。我们现在能够增加内核数量、缓存、内存和I/O ，而不受物理约束的影响，否则这些约束会强加给架构，并导致难以妥协。这种基础SoC架构对于提供平衡、缩放、和所有工作负载的一致性能，并且是实现数据中心规模、弹性和实现最佳数据中心利用率的关键。通过这种架构，我们现在能够为软件提供单一、平衡、统一的内存访问，每个线程都可以完全访问所有tile上的所有资源，包括缓存、内存和I/O 。结果是整个SoC具有一致的低延迟和高横截面带宽，并且是我们在SapphireRapids中提供低抖动的关键方法之一。虽然SapphireRapids为现有软件生态系统提供了开箱即用的可扩展性，但用户可以在sub-NUMA和sub-UMA级别启用集群，以获得额外的性能和延迟改进。 ”并实现最佳数据中心利用率。以获得额外的性能和延迟改进。 ”XCC和UCCXeonSP芯片存在延迟惩罚，因此Intel将它们分割成虚拟NUMA区域以提高性能，看起来这也不会有什么不同。我们的猜测是，在许多情况下，软件会将其视为四个进程而不是一个进程。当有人试图跨多个图块扩展VMwareESXi虚拟机时，我们将看到真正的“交易”是什么。这才是真正让NaplesEpycs迷惑的原因。 SapphireRapids封装上的四个tile中的每一个都有一个DDR5内存控制器，具有两个通道和超过25MB的最后一级缓存，几乎可以肯定，这是一个在所有tile之间共享的L3缓存，拥有超过100MB的容量，并且将由总共八个DDR5通道供电。该芯片还将支持英特尔去年12月预览的“CrowPass”Optane300系列持久内存。在I/O方面，每个SapphireRapidstile都有一个x24（24通道）UltraPathInterconnect(UPI)端口，用于交叉耦合到其他SapphireRapids插槽，以创建具有两个、四个或八个插槽的NUMA机器。这些UPI链接将以16GT/秒的速度运行。 “IceLake”至强SP芯片仅适用于具有一或两个插槽的机器，并且具有三个以11.2GT/秒较慢的速度运行的UPI链接。 “CascadeLake”XeonSP只有两个UPI端口，运行速度为10GT/秒。 SapphireRapids芯片将在每个块上运行一个PCI-Express5.0端口，因此插槽上有四个；英特尔尚未说明该socket将提供多少条PCI-Express5.0通道。 IceLake服务器芯片有60条以PCI-Express4.0速度运行的通道，每条通道的带宽减半；有传言整个芯片将支持80通道，所以个tile有20个通道。该PCI-Express5.0控制器将支持用于连接加速器和外部存储器的CXL1.1一致性协议。我们早在6月份就已经讨论过这个问题，但英特尔还在选定的SapphireRapidsCPU上提供HBM内存选项，针对需要比DDR%所能提供的内存带宽更多的HPC和AI工作负载。早在6月就有消息称，英特尔将非常激进，提供四组HBM2内存，每个芯片4GB ，每个插槽总共64GB 。