算力|AICC 2021,这些AI热门话题你一定要知道( 二 )


第二、天数智芯团队由一群在GPU、计算等领域深耕多年的技术专家组成,拥有深厚的行业经验,在每一个具体芯片单元的晶体管数量上面,均可以做到最优。
第三、更加了解中国市场的需求,从应用、软件和芯片设计等角度,天数智芯都有自己独特的想法,未来是一个万物皆可算的时代,而这时候GPU更是大有可为。
邹翾也认为,GPU市场不能否认的事实就是巨头已经在这个赛道耕耘多年,国内芯片企业在高端芯片设计、人才、IO、架构创新、应用迭代等方面刚刚摸到门道,还需要持续努力。
对于如何弥补与巨头之间的技术差距,邹翾则表示, 需要在市场中持续去了解需求,形成技术在市场中的不断迭代,通过市场反馈再去修复技术。不过过程不是一两天就能够实现的,要大家脚踏实地的持续努力下去。
最后,邹翾分享了对于AI算力未来发展趋势的洞察。他认为,随着AI在场景中不断落地,对于算力需求也在不断提升;对此,业界最通用的做法就是并行化,不过并行结构越来越大也会带来问题,而天数智芯就是致力于解决并行结构越来越大之后的通用可平衡性,让未来算力不断提升时,芯片的能效也能做到最好,同时配合行业伙伴,逐步建立通用计算的评测标准,持续为行业做出应有的贡献。
软件定义算力价值几何数据中心过去十年最具影响的技术就是软件定义。
从虚拟化时代,以VMware为代表的公司通过对服务器CPU资源进行虚拟化,使得数据中心的计算资源得以更高效地使用;之后,软件定义网络、软件定义存储等技术也先后兴起。现在,随着云计算技术与理念的深入人心,软件定义已经成为数据中心最重要的核心技术。
如今进入到AI算力时代,在AI芯片领域,除了NVIDIA等巨头之外,还有很多各种类型的AI芯片公司、技术和产品,用户数据中心正在面临着一个异构计算的时代,随着GPU等AI芯片越来越多,如何让AI算力能够更加高效、快捷、灵活地为人们所用,这就是软件定义算力的初衷。
算力|AICC 2021,这些AI热门话题你一定要知道
文章插图
在软件定义赛道上,趋动科技是目前国内创新的代表,致力于解决AI算力高效利用的挑战。
相关数据显示,目前用户数据中心GPU利用率只有10%-30%,未来有着巨大的利用空间。趋动科技技术总监张增金认为,目前对于AI算力主要有三大难题:其一、很多业务对于GPU卡的需求非常弹性,如何为业务部门提供需求相匹配的算力是业界的一大难题;另一个就是如何将GPU能力集成到现有PaaS平台、云管平台中;第三,异构计算带来的各种卡,不同品牌、不同型号,这些卡的管理、监控和全生命周期管理都是挑战。
“软件定义算力的核心价值就是降本增效。”张增金如是说。
那么,软件定义算力到底在数据中心哪些场景可以很好地发挥价值?对此,张增金认为有四大场景非常适合软件定义算力。
首先是隔空取物,例如用户一台服务器并没有GPU卡,但是又希望在该服务器上跑AI应用,这个时候需要通过网络去远程调用GPU服务上的资源;像很多训练场景会存在CPU资源和GPU资源并不匹配的情况,这个时候需要通过远程网络来调用GPU资源。
其次是化整为零,像一些推理引用,并不需要消耗很多GPU资源,这个时候可以将GPU按照百分比切片,让多个业务应用叠加到一张GPU卡上,充分提高GPU卡的利用率。
第三则是化零为整,将分布在不同GPU服务器上的资源进行整合,甚至一块GPU卡上的碎片资源都能够整合,然后为一个AI应用提供计算资源。
最后则是随需应变,AI应用往往对资源需求是弹性化的,需要动态调整GPU资源,有些应用上午可能需要4张卡,下午则变成2张卡,而对于GPU资源调整需要做到实时、不关机、不重启应用,只需调整参数就能实现。