gpu|亚洲最大!上海“巨无霸”AI计算中心投用,支持万亿参数大模型训练( 三 )


(2)高效的分布式调度:AIDC具有分布式任务调度系统,可在成千上万个GPU上动态调度数以万计的计算任务。该系统每年调度超过2000万个任务,确保研发活动能及时及有效地进行。在多种调度策略的支持下,调度系统可保持算力的高利用率,大降训练一个模型所需的平均成本。
(3)高速的数据I/O:在数据集上训练模型时,每个数据样本都会以高频率和随机顺序加载和处理多次。商汤的AIDC可提供非常高的IO吞吐量,允许训练任务每秒加载超过200万张图片,保证训练任务可以全速运行而无需等待数据。
“2018年,我们做了一个原型机的预研项目,实现了把1000块GPU卡连在同一个网络上去加载数据进行运算。今天我们正在做更大的5000~10000张卡,把它连在同一个网络上去进行计算。”杨帆谈道。
(4)硬件/软件协同设计:在分布式环境中,协同各计算节点GPU相互通信、频繁从分布式存储系统中获取数据的复杂操作,易造成运行时性能的显著损失。对此,商汤采用硬件/软件协同设计的方法,根据其对AI任务的理解来配置硬件设置,同时设计软件栈并进行跨层优化。通过这种设计,商汤的AIDC每年可生产数以万计的模型。
(5)高标准的系统安全:商汤在设计其架构时在多个层级确保系统安全。例如,商汤制订全面的指引,按照不同安全级别对数据进行分类,并授予相应的访问权限;商汤的存储系统包括先进的访问控制系统;敏感数据以加密的形式存储及传输;分配给不同授权组的计算资源实现了合理隔离。商汤的安全团队实时监控AIDC的运行,并在出现潜在风险时采取行动。
(6)绿色低碳数据中心建设:AIDC采用了各种前沿的能源优化措施,预期AIDC启动后的功耗将比中国其他数据中心的行业平均水平低约10%,每年可节省约4500万千瓦时功耗。AIDC预期将在2025年前后达到碳排放峰值,估计峰值排放量不超过35万公吨二氧化碳当量,并于2050年前后达到净零排放。
四、建智算中心,应先评估地域产业升级需求AI计算中心是否真正能带给产业应用价值?如何高效利用AI计算中心的资源?
谈及这些问题,杨帆说,商汤对于AIDC的未来应用场景非常有信心。商汤不仅自己做,还对一个地方产业升级的需求强度和规模做了很好的测算与评估。
在他看来,在一个地方建设智算中心,首要考虑的是评估这个地方的产业基础和未来三年的产业升级需求,然后测算今天的AI技术及产品供应商能否满足这些需求,才能知道应该建设多大规模的智算中心。
gpu|亚洲最大!上海“巨无霸”AI计算中心投用,支持万亿参数大模型训练
文章插图
数据治理也是AI产业发展中的一大挑战。农业时代的生产资料是土地,工业时代的生产资料是能源,而数字时代的生产资料就是数据。
对于能源,一升油加一升油,是两升油。对于土地,一亩地加一亩地,是两亩地。
但数据不一样,就是1T数据加1T数据,虽然变成了2T的数据,但其实际价值是大于2T的。更多的数据放在一起,将带来非线性增长的价值。
“这个是跟过去农业时代,工业时代的生产资料全都不一样的、一个极其重要的新特性。”杨帆分享了一些看法,数据最大的价值是低成本、可复制性和聚合之后实现的非线性增长价值。
如何实现更多数据的连接,同时保障数据安全和隐私可控,又能够界定清楚中间的权属规定?这些需要行业继续探索,去找到一个清晰的答案。
杨帆说,商汤建设AIDC也是一种探索,可能在未来一到两年,在AIDC的试运营阶段开始后,商汤会在这个方面重点做一些思考、摸索和尝试,因为他认为这是未来最核心的几件事情之一。