|“清华帮”组队创业,要打破芯片能效天花板,对话苹芯科技CEO( 四 )


谈及未来三年目标 , 杨越说 , 首先是实现落地 , 二是继续巩固苹芯在SRAM存内计算方向的领先地位 , 三是在新型存储器研发方面有所突破 。
“我们要维护苹芯本身的技术先进性和领先性 , 因此不管在SRAM还是新型存储器方向 , 我们都在持续进行着最前沿的探索 。 ”杨越说 。
五、探索打开高能效计算之门的金钥匙在杨越看来 , 存算一体AI芯片公司直面的竞争对手不是彼此 , 而是那些传统的AI芯片公司 。
“我觉得市场并没有进入同质化竞争的阶段 。 ”他谈道 , “更重要的是大家要拧成一股绳 , 把存内计算技术的先进性和可落地性展现出来 。 ”
相较传统AI芯片 , 存算一体AI芯片的挑战会更加宽泛 。 存内计算本身是一门技术壁垒森严的设计方法学 , 需要多年经验积累、大量资源以及时间投入才能实现 。 也正因此 , 过去六年 , 存算一体AI芯片创业几乎均由技术专家主导 。

▲国内在研存算一体AI芯片的企业(智东西制表)当前存算一体AI芯片创业呈多元化趋势 , 有模拟芯片与数字芯片之分 , 有NOR Flash、ReRAM、SRAM、MRAM等不同新型存储器 。 其目标市场也各不相同 , 从可穿戴设备、智能家居、视频监控到智能驾驶、云端数据中心应有尽有 。
这种“各自为政”的特点 , 使存算一体很难出现一个统一的编程标准 , 大家都是针对自己的应用场景和性能目标 , 各建各的软件栈 。 无论选择小算力还是大算力应用 , 企业都得摸着石头过河 。
考虑到现阶段的实际情况与技术发展的现实规律 , 苹芯团队选择先在小算力上完成全技术通路和商业通路 , 积累更多能力后 , 再将算力做大 。

▲当前主流AI芯片设计对比(智东西制表)之所以选择SRAM来完成技术验证与落地 , 苹芯团队主要出于四点考虑:
一是SRAM在存储器历史长河中长期存在 , 技术相对成熟 , 稳定性和良率都有保障;二是它具备先进节点的兼容性 , 客户从65nm升级到16nm , 能保证继续使用;三是在开发接口方面比非易失性存储器更简单;四是非常短的读写延迟和无限次的in-place擦写次数 。
尽管SRAM属于易失性存储器 , 掉电后数据就丢了 , 但AI实际应用很少出现按分按秒的频繁断电情形 , 否则这对计算体系结构的其他部分伤害很大 , 是一个应该主要规避的问题 。
杨越认为 , 无论从算力还是落地容易程度来看 , SRAM最先可能在端侧取得较大规模的产业化 。
AI时代的终端及边缘计算需求日益旺盛 。 如果所有计算都传至云端处理 , 传输过程会造成时延;此外 , 很多用户不愿意将自己的隐私数据上传至云端 , AI计算本地化的需求正在兴起 。 这对AI芯片带来新的要求——更高效率、更低功耗 , 而基于SRAM的存算一体方法恰恰擅长于此 。
“每一个SRAM的内核能够做到多少绝对算力 , 我们非常清楚 。 ”杨越说 , 芯片的算力、面积、效率等基础指标互相牵制 。 如果想突出高能效比及成本等优势 , 那么算力难免要做些平衡 。
相比其他类型的存储器 , SRAM存在单元面积偏大、存在静态功耗高、成本略高等问题 , 但杨越认为 , 仅从SRAM本身来考虑 , 是不全面的 。
存内计算在系统中扮演协处理器的角色 , 要比的不止是存储器 , 而应该从整个系统层面来看性能表现和成本影响 。 SRAM的这些短板 , 可以通过系统设计来矫正差距 。
例如 , 端侧发生的大多事情都是主控设备不感兴趣的 , 利用这一特点 , 苹芯降低功耗的解决方案是在设备待机时将大部分SRAM存算单元关掉 , 只预留一个睡眠模式 , 在最小的模块里保持监测状态 , 当物体检测、语音交互等感兴趣的事件发生时 , 存内计算模块才会被唤醒 。