?存算一体:NOR Flash冲向新巅峰( 三 )


其二 , NORFlash属于非易失性存储器 , 可以直接存储网络权重 , 因此不需要片外存储器 , 减小芯片成本 。 例如Mythic的产品MP10304PCIe并不需要额外的片外存储;同时 , 非易失性可以保证数据掉电不丢失 , 从而实现即时开机/关机操作 , 减小静态功耗 , 延长待机时间 , 非常适用于功耗受限的边缘终端设备 , 例如国内企业知存科技量产的芯片WTM2101专注于可穿戴设备 , 和现有芯片在AI算力上有数十倍到百倍的提升 。
NORFlash学术研究及产业应用进展
在学术方面 , 国内外高校都有研究 。 美国加州大学圣塔芭芭拉分校的研究团队通过修改NORFlash阵列结构实现了对单个Flashcell的编程擦除操作,并在此基础上构建了一个包含两层全连接层的神经网络 , 该计算阵列识别一张图片能耗低于20nJ 。 并且该团队还进一步设计了计算精度为5Bit,大小为400X400的由Flash构成的乘累加单元 。 北京大学的研究团队提出了针对大尺寸图像卷积的分块计算方式 , 实现了对大尺寸图像的二维卷积操作 。
在产业方面 , 国内外企业中基于NORFlash的存算一体都正飞速发展 , 且有量产芯片出现在市场 。 目前存算一体技术处于多种存储介质百花齐放的格局,如Flash、SRAM、MRAM等等 。 如今选择SRAM介质阵营的主要有苹芯科技、后摩智能、九天睿芯;MRAM方面 , 三星电子于2022完成世界上第一个基于MRAM的内存计算流片 , 并发表在《nature》 , 而Flash阵营的代表玩家则有美国的Mythic , 与国内知存科技、合肥恒烁 。
国外相关领域的佼佼者是美国公司Mythic , 该公司于2012年成立 , 专注于研发深度学习的神经网络芯片的公司 , 其推出的新型的芯片和软件 , 无需通过云端就能在本地设备中实现语音控制、计算机视觉和其他的AI技术 。 在2019年推出基于Flash的神经网络处理单元IPU 。 IPU的性能达到4TPOS/W 。 Mythic于2020年11月推出业界首款模拟矩阵处理器(MythicAMP?) 。 并于2021年推出MP10304PCIe卡 , 该卡具有四个M1076Mythic模拟矩阵处理器(AMP) , 提供高达100TOP的AI性能 , 且不需要片外存储器 , 减小芯片成本 , 并在不到25W的功率下支持多达3.2亿个权重 , 用于复杂的AI工作负载 。 Mythic着重在较小的功耗下实现高性能的神经计算 。
?存算一体:NOR Flash冲向新巅峰
文章图片
MythicMP10304Quad-AmpPCIE卡
国内企业也在发力基于NORFlash的存算一体 。 其中的领先者是知存科技 。 知存科技公司与科大讯飞合作 , 于2016年发布了基于Flash的MemCore001芯片 , 支持智能语言识别、语音降噪等多种智能语音应用 。 2018年 , 知存科技即针对智能语音应用场景设计了国际领先的高精度、低功耗Flash存算一体芯片架构 , 并首次应用MemCore001/MemCore001P系列芯片 。 并于2022年3月宣布其WTM2101芯片正式量产并推向市场 , WTM2101的AI算力高达50Gops , 相较于可穿戴设备现有芯片在AI算力上有数十倍到百倍的提升 。
知存科技的存算一体模块基于高密度非易失性存储器 , 8-bit量化的深度学习算法参数量支持高达1.8M个 , 可同时运行2-3个高性能模型 。 知存科技着重在可穿戴设备方向 , 且已于今年实现量产芯片 。
?存算一体:NOR Flash冲向新巅峰
文章图片
知存科技WTM2101
国内的另一家企业是来自合肥的恒烁半导体科技公司 , 其于2019年底宣布公司第一款CiNORV1版在武汉新芯65nmNORFlash制程上已经完成芯片设计并流片 , 成功验证了CiNOR芯片原理和可行性 , 并实现了包括手写识别、ECG检测和人脸检测等几项应用 。