助攻国产AI芯片解锁大模型!智源打造1000P算力平台,还发起AI芯片生态实验室( 二 )


助攻国产AI芯片解锁大模型!智源打造1000P算力平台,还发起AI芯片生态实验室
文章图片
作为AI智算平台 , 九鼎提供算力、数据、算法三方面的创新支持 。
在数据层面 , 智源目前正在携手埃及阿拉伯科技与海运学院、埃及亚历山大图书馆 , 共建世界最大的阿拉伯语数据集和智能模型 。 这一行动是填补阿拉伯世界预训练数据集空白的重要一步 。 目前九鼎平台已经承载了超过340TB的训练数据 , 支撑多个国内外AI团队的算法创新 。
在算法层面 , 智源研究院在本次大会宣布了大模型算法工具项目FlagAI(飞智)的正式开源 。 该开源项目可为大模型预训练、微调与推理提供一站式服务 , 通过易用、高质量的架构设计 , 大大降低开发者使用大模型新技术的门槛 。 FlagAI正在加入全球开源体系 , 未来将开放更多高效的大模型相关技术 。
在建构之余 , 九鼎平台还将探索三大技术问题:
助攻国产AI芯片解锁大模型!智源打造1000P算力平台,还发起AI芯片生态实验室
文章图片
1、探索满足大规模混合计算任务的调度方法
现有的商业公有云以并发量高的推理任务为主 , 即同一个任务形态海量并发 , 但每个任务相对较小 。
相比之下 , 九鼎平台更注重AI大模型训练任务 , 其调度的核心是关注在多个大模型同时训练的情况下 , 如何支持不同的训练任务在数据、算法、任务等层级实现并行优化策略 , 同时平衡好网络和计算 。
为此 , 九鼎团队正在打造一套自研的调度系统 , 并确保提供可靠的、不间断的训练 , 同时提供训练期间的弹性资源伸缩的能力 。
2、构建融合的AI+HPC云计算体系架构
面向AIforScience场景 , 九鼎平台需要在现有CPU处理器、GPU及很多国产AI加速器的异构计算云平台资源上 , 构造一套能混合、弹性调度AI和HPC工作负载的云计算能力 , 以推动AI科研云平台的发展 。
林咏华称 , 九鼎团队既有在百度、快手等互联网AI平台有多年研发经验的技术领头人 , 也有来自IBM等国际大厂多年从事HPC系统研发的骨干 , 因此有能力对于这一问题开展系列研发 , 这也能对新一代架构的发展起到很好的示范作用 。
3、打造拉动各种异构计算芯片能力的统一适配层
作为混合架构云平台 , 九鼎平台已支撑多家厂商的AI加速芯片 , 由于各芯片的架构设计、底层指令集都不尽相同 , 它们支撑各种运算作业的能力也存在差异 。
因此 , 智源希望借助AI能力构建统一的自动适配层 , 探索实现自动匹配最佳运行硬件架构环境的方法 , 让每一款异构计算芯片发挥其最佳运算能力 , 最终提升整体平台的效能 , 并帮助产业大幅降低异构计算的使用及优化门槛 。
二、创立AI芯片生态实验室 , 破解四大产业瓶颈
从2020年至今 , 智源研究院一直在做国产芯片的适配和评测工作 , 并在此过程中发现当前AI芯片产业正面临几个瓶颈问题:
助攻国产AI芯片解锁大模型!智源打造1000P算力平台,还发起AI芯片生态实验室
文章图片
其一 , 业界尚未建立起成熟、统一的产业应用标准和规范 , 导致各芯片厂商面对不同企业需求只能进行重复性适配与测试 , 耗费大量资源与人力成本 , 并延长了芯片进入市场的周期 。
助攻国产AI芯片解锁大模型!智源打造1000P算力平台,还发起AI芯片生态实验室】其二 , 许多AI芯片对新一代主流模型适配度不足 , 比起AI模型的发展速度相对滞后 , 常常会出现系统不兼容、算子不支持的现象 。
其三 , 随着芯片制造工艺逐渐逼近瓶颈 , 芯片性能的突破更多依靠芯片架构的创新 , 充分发挥芯片架构的性能是离不开基础软件的创新工作的 。 在国内 , AI芯片的研发力量集中在芯片公司 , 而基础软件创新主要在高校团队 。 因此 , 要拉动国产AI芯片的软硬件协同创新 , 需加大跨层的创新与合作 。