用ReRAM存算一体突围大算力AI芯片!深度对话亿铸科技CTO( 二 )
相较传统存储介质 , ReRAM拥有存储密度高、能耗低、读写速度快及可下电数据保存(非易失性)等特点 , 且生产工艺与CMOS完全兼容 , 可以通过制程工艺的升级迭代持续提升性能和密度 。
而且围绕ReRAM的研发及商业化进展 , 国内的产业链发展也在突飞猛进——中国台湾的台积电和中国大陆的昕原半导体 , 成为唯二实现28nm制程ReRAM量产的公司 。
如今 , ReRAM已经被业内知名头部企业采用设计下一代芯片 。 在2021年台积电的年报中 , 以ReRAM为代表的新型存储介质市场份额在持续提升 。 亿铸的紧密合作伙伴昕原半导体目前也已经实现28nm制程ReRAM产品的量产出货 。
这些进展持续传递出一个信号:ReRAM技术在存算一体方向的应用和量产已经具备了相应的产业链配套保证 。
也正因此 , 亿铸科技的技术能够实现从软件、架构、芯片设计、工艺、制造的国产化 , 且核心IP均为亿铸自研以及与合作伙伴共同研发 。
二、高精度+高能效比 , 单板卡突破1000TOPS
目前来看 , 亿铸将会是世界上率先将存算一体架构切实在AI大算力芯片中设计完成并商用落地的公司 。
Debu说 , 亿铸基于ReRAM全数字存算一体大算力AI芯片 , 具有高能效比、高精度、高时延确定性、易部署等特点 。
存算一体架构芯片的能效比 , 理论上可以做到传统冯·诺依曼架构芯片的几十倍甚至百倍以上 。 基于这一思路 , 亿铸团队在存算阵列架构、模拟域全数字化计算、存算一体芯片架构、自动编译等诸多方面创新设计 , 实现了亿铸AI芯片可以满足大算力、高能效比、高精度计算等不同方面的要求 。
文章图片
▲亿铸目标打造AI原生计算架构 , 用存算一体打破芯片“三堵墙”(图源:亿铸科技)
许多存算一体厂商选择的模拟或模数转换的计算路径 , 精度往往会受信噪比的影响 , 精度上限在4-8bit左右 , 因此多用在对能效比要求较高、对精确度容忍空间大的小算力场景 , 不适合用在云端数据中心 。
而亿铸做的全数字化方案 , 无需ADC/DAC模数和数模信号转换器 , 不会受到信噪比的影响 , 精度可以达到32bit甚至更高 , 既不会产生精度损失 , 也不会面临模拟计算带来的诸如IR-DROP等问题 。
因为解决了存储墙的问题 , 相比传统AI芯片方案 , 存算一体AI芯片能在相同算力下只需更低的功耗 , 从而节约耗电量和成本;在标准功耗规格的PCIe计算卡上提供更高算力 , 同在75W功耗的前提下 , 亿铸ReRAM存算一体大算力板卡算力可达1POPS(INT8)以上(1POPS即1000TOPS) 。
在数据中心场景中 , 计算芯片不是单打独斗 , 而需形成多芯片扩展、多集群通信管理 , 这对芯片架构本身及软件均提出了更高的要求 。 Debu表示亿铸团队非常有信心实现这个技术要求 。
三、打破AI芯片的“第三堵墙”
除了存储墙、能耗墙外 , AI芯片领域还长期面临第三堵墙——影响芯片易用性的编译墙 。
对于云端数据中心客户来说 , 他们主要关心两件事:一是拥有成本优势 , 二是能否得到与以前方法一致的用户体验 。 而满足客户对用户体验的要求 , 则需在软件上下功夫 。
“对于任何AI加速公司来说 , 你需要建立自己的软件栈 。 ”Debu强调道 , 软件栈能够利用存算一体架构的优势 , 更充分地挖掘硬件性能 。
由于存算一体芯片主要用于AI推理 , 更注重部署能力 , 只要容量足够的情况下 , 其在软件生态方面没有特别的限制 , 由于没有存储墙问题 , 无需优化十分复杂的动态数据流 , 它的软件优化方面会比传统架构简单很多 。
- |科技部首批支持建设 十个人工智能示范应用场景
- 华为也能用,谷歌宣布Android13开源代码,还要做鸿蒙吗?
- 折叠屏|折叠屏手机最大的作用是什么?真相往往有些扎心
- 高通骁龙|12GB+256GB大容量,这4款手机最低仅1749元,正常能用三五年不卡
- 评测|深圳大批用户银行卡微信提现失败,支付宝无法转账,账户状态显示为冻结。
- 充电|充电桩“虚电多”、充的电不经用……电动自行车充电桩收费乱象亟待消除
- 俞敏洪|大疆:俄罗斯你莫要害我,我只是造民用无人机的
- 拼多多|弘辽科技:拼多多主轮播图是指哪个图片?轮播展示有用吗?
- 电池|大内存用着才爽,这4款512GB手机推荐,最低仅2299,流畅三五年
- 摩托罗拉razr 2022折叠屏手机首波用户评价已出炉,好评度100%?