英伟达用AI设计GPU:最新H100已经用上,比传统EDA减少25%芯片面积

白交发自凹非寺
量子位|公众号QbitAI
英伟达终于揭晓:
H100竟有近13000条电路 , 是AI设计的?!
英伟达用AI设计GPU:最新H100已经用上,比传统EDA减少25%芯片面积
文章图片
在最新论文中 , 他们介绍了如何用深度强化学习agent设计电路的方法 。
据研究人员称 , 这种方法还属业内首次 。
英伟达用AI设计GPU:最新H100已经用上,比传统EDA减少25%芯片面积
文章图片
值得一提的是 , 这篇文章包含参考文献在内 , 仅有短短6页 。
不少网友表示 , 太酷了!
英伟达用AI设计GPU:最新H100已经用上,比传统EDA减少25%芯片面积
文章图片
靠玩游戏来学习构建电路架随着摩尔定律变慢 , 开发其他技术来提高芯片性能变得愈发重要 。
设计更小、更快、功耗更低的算术电路 , 就是其中的方式之一 。
基于这样的背景 , 研究人员提出了PrefixRL——用深度强化学习优化并行前缀电路 。
英伟达用AI设计GPU:最新H100已经用上,比传统EDA减少25%芯片面积
文章图片
据研究人员介绍 , 他们不仅证明了AI可以从头开始设计电路 , 而且比EDA工具设计得更小、更快 。
英伟达用AI设计GPU:最新H100已经用上,比传统EDA减少25%芯片面积
文章图片
最新英伟达Hopper架构就拥有13000个AI设计电路的实例 。
来具体看看这项研究 。
本文主要研究了一种流行的并行前缀电路 , 着重讨论了电路的两大特性:电路面积和延迟 。
已有的优化基本思路 , 是使用电路发生器将前缀图形转换为带有导线和逻辑门的电路 , 再用物理综合工具进一步优化 。
他们将算术电路设计看作是一个强化学习任务 , 训练一个agent来优化两大特性 。
对于前缀电路 , 还设计了一个环境 。
英伟达用AI设计GPU:最新H100已经用上,比传统EDA减少25%芯片面积
文章图片
在这个环境中agent玩构建电路架构(前缀图形)的游戏 , 可以从中添加or删除节点 , 会因为电路面积最小化和低延迟而获得奖励 。
研究人员使用Q-Learning算法来训练agent 。
首先将前缀图表示成网格 , 网格中的每个元素都映射到电路中的节点 。
输入和输出均为网格 , 只不过输入网格中的每个元素表示节点是否存在 , 输出每个元素则表示用于添加或删除节点的Q值 。
英伟达用AI设计GPU:最新H100已经用上,比传统EDA减少25%芯片面积
文章图片
在实际训练中 , PrefixRL是一项计算要求很高的任务:物理模拟每个GPU需要256个CPU , 训练64b用例花费超32000个GPU小时 。
为此 , 研究人员还开发了个分布式强化学习训练平台Raptor 。
英伟达用AI设计GPU:最新H100已经用上,比传统EDA减少25%芯片面积
文章图片
结果显示 , 在相同延迟、效能下PrefixRL加法器面积比EDA工具加法器面积减少了25% 。
英伟达用AI设计GPU:最新H100已经用上,比传统EDA减少25%芯片面积
文章图片
研究团队本次研究来自英伟达应用深度学习研究小组 。
他们希望这个方法有希望让AI应用到实际电路设计问题当中去 。
近年来 , AI设计芯片这件事儿很多科技公司都已经在展开 。
最典型如谷歌 , 去年6月在Nature上发表了一篇文章:Agraphplacementmethodologyforfastchipdesign 。
文中表示 , AI能在6个小时内生成芯片设计图 , 而且比人类设计得更好 。
英伟达用AI设计GPU:最新H100已经用上,比传统EDA减少25%芯片面积
文章图片
还有像三星、新思、cadence等企业也都有相应的解决方案 。
前阵子在英伟达GTC大会上 , 首席科学家、计算机架构大师BillDally就分享了AI在芯片设计上的几种应用 。