半导体行业观察最有深度的半导体新媒体|在Chiplet方面,英特尔又迈出一步( 二 )


半导体行业观察最有深度的半导体新媒体|在Chiplet方面,英特尔又迈出一步
文章图片
这种HBM内存将有两种模式(好吧 , 我们认为是三种) 。 第一种称为扁平模式 , 将内存划分为HBM和DDR区域 , 然后是缓存模式 , 将DDR5内存用作HBM内存的一种缓存 。 当然 , 你可以直接用HBM加载 , 根本不使用任何DDR5内存 , 这将是第三种方式 。 看到第四种方式将非常有趣 , 它将通过CXL链接提供SapphireRapidsCPU中的HBM内存和PonteVecchioGPU加速器中的HBM内存的一致性——我们认为这将发生在Argonne的Aurora系统中.在架构日活动中 , 英特尔给出了一些关于SapphireRapids处理器在不同模式下相对于自身及其前辈的表现的提示 。 第一个图表只是原始的8位整数(INT8)性能 , 目前在许多神经网络中用于机器学习推理 。 看看这个:
半导体行业观察最有深度的半导体新媒体|在Chiplet方面,英特尔又迈出一步
文章图片
与GoldenCove核心一起添加的高级矩阵扩展或AMX指令显然将显着提高推理性能 。 此图表显示每个周期的操作 , 因此我们认为AMX是AVX-512单元的矩阵数学叠加 , 与IceLake相比 , INT8性能将提高8倍(或仅使用添加的VNNI指令中的原始INT8函数)CascadeLake和IceLake芯片) 。 当然 , 也用于AI训练和推理的Bfloat16将以这个速度的一半运行 。 第二个性能要求与微服务性能有关——这意味着在云时代很常见的大规模分布式应用程序 。
半导体行业观察最有深度的半导体新媒体|在Chiplet方面,英特尔又迈出一步
文章图片
与IceLake相比 , SapphireRapids的原始指令每时钟(IPC)似乎高出约19% , 而IceLake在原始IPC上比CascadeLake高20% , 因此这些数字是一致的 。 事实上 , 这比仅基于IPC的预期高出约25% 。 当然 , 更快的内存、更多的I/O以及无数其他调整都有助于实现这一点 。
英特尔推进全新架构 , 面向数据中心、HPC-AI和客户端计算英特尔推出两大x86CPU内核、两大数据中心SoC、两款独立GPU , 以及变革性的客户端多核性能混合架构
半导体行业观察最有深度的半导体新媒体|在Chiplet方面,英特尔又迈出一步
文章图片
RajaM.Koduri架构是硬件和软件的“炼金术” 。 它融合特定计算引擎所需的先进晶体管 , 通过领先的封装技术将它们连接 , 集成高带宽和低功耗缓存 , 在封装中为混合计算集群配备高容量、高带宽内存和低时延、可扩展互连 , 并确保所有软件无缝地加速 。 披露面向新产品的架构创新 , 是英特尔架构师在每年架构日上的期许 , 今年举办的第三届英特尔架构日令人十分兴奋 。 今天 , 我们公布了英特尔?架构在近年来重大的改变和创新 。 这包括:第一次深入介绍了英特尔首个性能混合架构AlderLake , 其搭载两款新一代x86内核以及智能英特尔?硬件线程调度器;英特尔全新引领行业标准的数据中心架构SapphireRapids , 其搭载全新的性能核以及多种加速器引擎;英特尔全新的独立游戏图形处理器(GPU)架构;英特尔全新的基础设施处理器(IPU)以及超凡的数据中心GPU架构PonteVecchio , 其具备英特尔迄今为止最高的计算密度 。 架构突破为英特尔的下一波领先产品奠定基础 , 率先推出的是AlderLake 。 随着从台式机到数据中心的工作负载愈发庞大、愈发复杂、愈发多样 , 我们在架构日上展示的突破展现了架构将如何满足对更高计算性能的需求 。 架构师们奋力而行 , 结合英特尔独特、丰富的标量、矢量、矩阵和空间计算引擎 , 打造混合计算架构 , 为客户的高需求工作负载提供非线性处理能力 。 我为大家概述如下:能效核一个高度可扩展的x86微架构 , 它能满足客户从低功耗移动应用到多核微服务的全方位计算需求 。 对比英特尔迄今为止最多产的CPU微架构——Skylake , 能效核可在相同功耗下提升40%的单线程性能 , 或者在提供同样性能时 , 功耗仅为Skylake的40%不到 。 ①就吞吐量性能而言 , 与运行四个线程的两个Skylake内核相比 , 四个能效核在性能提升80%的同时功耗更低 , 或者在提供相同吞吐量性能时 , 功耗降低80% 。 ①性能核它不仅是英特尔迄今为止性能最高的CPU内核 , 而且在CPU架构性能方面实现阶梯式提升 , 推动未来十年的计算发展 。 它是一个更宽、更深、更智能的架构 , 展现出更高的并行性 , 提高执行并行性 , 降低时延 , 提升通用性能 。 它还帮助支持大数据集和大型代码体积的应用程序 。 与第11代酷睿架构(CypressCove内核)相比 , 相同频率下 , 性能核在一系列工作负载上平均提升了约19% 。 ①针对数据中心处理器和机器学习的发展趋势 , 性能核提供了专用硬件 , 包括新的英特尔高级矩阵扩展(AMX)来执行矩阵乘法运算 , 以获得数量级的性能——AI加速提升约8倍 。 这是为软件易用性而设计 , 利用了x86编程模型 。 英特尔硬件线程调度器这是英特尔开发的独特调度方法 , 旨在确保将能效核和性能核无缝衔接在一起 , 从开始就动态、智能地分配工作负载 , 从而优化系统以在真实场景中实现更高的性能和效率 。 智能直接置于内核 , 英特尔硬件线程调度器与操作系统无缝配合 , 在合适的时间把合适的线程分配给合适的内核 。 AlderLake它重构了多核架构 , 是英特尔首个搭载全新英特尔硬件线程调度器的性能混合架构 。 它是英特尔最智能的客户端SoC架构 , 结合了能效核和性能核 , 适用于从移动端到台式机的产品 , 并通过多种业界领先的I/O和内存而引领行业变革 。 基于AlderLake的产品将在今年开始出货 。 一款全新的独立显卡微架构 , 专为游戏和创作工作负载提供发烧友级别的性能 。 XeHPG微架构采用新的Xe内核 , 聚焦计算、可编程、可扩展 , 并全面支持DirectX12Ultimate 。 Xe内核中的全新矩阵引擎(XeMatrixeXtensions , XMX)能够加速AI工作负载 , 比如XeSS , 是一项全新升频技术(upscalingtechnology) , 可以实现高性能、高保真游戏体验 。 基于XeHPG的AlchemistSoC(之前代号为DG2)将于2022年第一季度上市 , 并采用新的品牌名英特尔?锐炫? 。 SapphireRapids它结合了英特尔的性能核与全新加速器引擎 , 树立了下一代数据中心处理器的标准 。 SapphireRapids的核心是一个模块化的分区SoC架构 , 得益于英特尔的EMIB多晶片互连封装技术和先进网格架构 , 它具有显著的可扩展性 , 同时仍保持单晶片CPU接口的优势 。 基础设施处理器(IPU)MountEvans是英特尔首款专用ASICIPU , 以及全新的基于FPGA的IPU参考平台——OakSpringsCanyon 。 通过基于英特尔IPU的架构 , 云服务提供商(CSPs)可以通过把基础设施任务从CPU转移到IPU , 从而让数据中心收益更大化 。 把基础设施任务转移到IPU , 能够让云服务提供商(CSPs)可以把所有的服务器CPU租给客户 。 XePonteVecchio是英特尔迄今为止最复杂的SoC , 也是我们践行IDM2.0战略的绝佳示例 , 它采用多种先进的半导体制程工艺、英特尔变革性的EMIB技术以及Foveros3D封装技术 。 这是我们实现堪比登月难度创新后的一款产品 , 它包含1000亿个晶体管 , 提供业界领先的浮点运算和计算密度 , 以加速人工智能、高性能计算和高级分析工作负载 。 在架构日上 , 英特尔展示了早期的PonteVecchio芯片就已经显示出领先的性能 , 在一个流行的AI基准测试上创造了推理和训练吞吐量的行业纪录 。 ①我们的A0芯片已经实现了超过每秒45万亿次浮点运算的FP32吞吐量 , 超过5TBps的持续内存结构带宽以及超过2TBps的连接带宽 。 如Xe架构一样 , PonteVecchio将由oneAPI支持 , 后者是英特尔一个开放、基于标准、跨架构、跨供应商的统一软件堆栈 。 回望过去一年 , 科技处于所有人如何沟通、工作、娱乐和应对新冠肺炎疫情的核心 。 事实证明 , 强大的计算能力至关重要 。 展望未来 , 我们面临庞大的算力需求 , 预计到2025年将是1000x(千倍级)的提升 , 而四年内增加1,000倍相当于摩尔定律的5次方 。 英特尔CEO帕特·基辛格也是一位架构师 , 他说:“我们面临艰巨的计算挑战 , 一定要通过变革性的架构和平台来解决……正是英特尔才华横溢的架构师和工程师们 , 让这些技术‘魔法’得以成真 。 ”世界正依赖架构师和工程师来解决艰巨无比的计算问题 , 以造福人类 。 这就是为什么我们的战略和执行不断加速以满足所需 。 我们疾步前行 。