进军“高定”裸金属,京东云支持超级计算集群天琴α

继人工交付裸金属、智能交付裸金属到边缘裸金属的持续升级后 , 京东云正式进军“高定”裸金属 , 以自主研发的裸金属服务器管理平台 , 支持全国首个基于DGX SuperPOD架构的超级计算集群——天琴α 。
图:天琴α部分机柜
谁在追捧裸金属服务器
作为兼具云主机与物理机优势的云产品 , 裸金属在不少行业场景中备受追捧 , 成为用户上云的首选 。
以金融、银行、证券等行业为例 , 裸金属资源独享、数据隔离和可监管、可追溯的特性 , 可以满足业务部署的合规性要求、客户对数据的安全要求 。在超算中心、航空航天等科学研究场景 , 裸金属不受虚拟化性能损耗等影响 , 保持优秀计算性能、稳定性、实时性表现 , 支持处理大规模数据 。还有游戏开发、基因测序等多类场景 , 裸金属都是众多用户的首选 。
究其原因 , 是裸金属无虚拟化性能损耗、独享服务器计算能力和存储空间的特性 , 可以满足核心应用场景对高性能、稳定性和安全性的需求 , 同时拥有云化管理、自动化交付、提供快速弹性扩展业务的能力 , 让用户可以像虚拟机一样直接申请、部署和管理物理机 。
从通用到高定 , 京东云裸金属的里程碑式升级
近期 , 京东探索研究院宣布建设完成全国首个基于DGX SuperPOD架构的超大规模计算集群——天琴α , 为超级深度学习、可信人工智能以及量子机器学习三大方向的研究提供强大算力支撑 。在天琴α的背后 , 正是京东云自主研发的裸金属管理平台 。
京东云裸金属致力于在不侵入服务器硬件设备和不增加成本的前提下 , 为客户提供裸金属云服务 , 满足客户按需购买、按量付费、弹性扩展的能力 。不同于通用裸金属方案提供基于以太网的网络隔离能力、镜像和服务器初始化配置等服务 , 天琴α采用的DGX服务器旨在实现超级计算能力 , 难以与云主机融合 , 且不可随意加装硬件设备影响整体性能和稳定性 。
如何在不加增特定硬件的前提下 , 为天琴α超大规模计算集群提供自动化运维能力是摆在京东云面前的难题 。
面对天琴α超大规模计算集群的自动化运维需求 , 京东云在原有裸金属管理平台基础上 , 深度定制一套全新的裸金属管理平台 , 不仅支持以太网和InfiniBand网络同步隔离、DGX服务器实例管理 , 还提供定制化OS镜像、面向NVME磁盘的软RAID设置和完全个性化的服务器初始化配置能力 。
通过这套高度定制化的裸金属管理平台 , 可实现以线上控制台或者OpenAPI分钟级完成新DGX服务器的初始化安装部署配置 , 支持随时在线管理DGX服务器资源或者重新调配 , 极大提升整体集群的利用效率 。
全栈裸金属产品服务 , 助力多元客户上云
从2017年初京东决定全面向技术转型以来 , 近五年时间已在技术上累计投入近750亿元 , 换来在高精尖领域创新等领域的重大突破 , 并在京东体系的业务场景完成大规模实践 。在近期揭晓的“2021新型实体企业百强榜”上 , 京东高居第二名 。
在裸金属领域 , 基于多年的技术研发与业务实践 , 京东云已经构建全栈裸金属产品服务体系 , 包括人工交付裸金属产品线、智能交付裸金属产品线以及边缘裸金属产品线 , 并支持面向客户场景进行深度定制化研发 。