分布式系统|IBM Spectrum LSF: 分布式系统的“瑞士军刀”

作者简介:何金池是IBM科技事业部负责客户工程的架构师,著有《Kubeflow:云计算和机器学习的桥梁》和《大数据处理之道》等书,是Kubeflow、Tekton多个开源社区的Maintainer,亲自参与了IBM Spectrum LSF、IBM Cloud Pak for Data等产品的研发,是分布式计算、大数据处理和云原生等相关技术和产品的专家。
0. 引言当前,我们正处在一个“数据智能”的时代,数据呈指数级增长,数字化、智能化转型已是企业创新和高质量发展的基石。在数据为王的时代,如何让数据产生价值,让数据说话,让数据辅助决策呢?数据变宝任重而道远,只有借助于高性能计算(HPC)和人工智能(AI),数据才能淋漓尽致的绽放其价值。而在分布式的HPC集群的工作负载运行中,调度是 “大脑中枢”,无调度不成超算。
IBM Spectrum LSF (Load Sharing Facility,下文称LSF)给分布式高性能计算系统注入灵魂,强有力地把分布在不同地方的算力组织起来,犹如万剑归一,凝心聚力,以实时的算力监控和优越的调度性能,在最短的时间内完成工作负载的调度和执行。
1. LSF横空出世并一往直前站在今天看过去,分布式高性能计算一直是IT行业的热门话题。就是算力强悍的今天,大型机(比如IBM Z系列)已经承载了一些核心的业务,但一些其他的应用和作业,无福享受到强悍的大型机的伺候,更何况把目光往前推20多年,单个主机很难满足应用作业的需求,那怎么办呢?最直接的方式就是把一群机器组织起来,并行干活。如果有一把绝世宝剑,来统一号令集群协同工作,只要调度得当,完全有可能实现“机心齐,泰山移”。
在这种背景下,LSF于1992年横空出世。到今天,LSF已经走过了29个年头。在这29年的发展中,新的技术层出不穷,用户的需求也在不断变化,经过LSF研发团队的精益求精和不懈努力,LSF已经发展成为HPC分布式集群的“瑞士军刀”,拥有高性能的大规模分布式集群管理和调度能力。近日在中国,LSF被IBM中国团队创业成长计划“12星座”冠以“白羊座”黑科技产品,算是名至所归。29岁,LSF正当壮年!
分布式系统|IBM Spectrum LSF: 分布式系统的“瑞士军刀”
文章插图
那么LSF到底是什么呢? LSF是一个强大的分布式工作负载管理平台,基于智能的、策略驱动的调度特性,充分利用计算基础设施资源,实现最佳的应用程序性能。一言以蔽之,LSF在正确的时间内,将正确的资源分配给正确的用户作业。LSF旨在降低企业运营成本的同时,提高生产效率。LSF构架图如下。
分布式系统|IBM Spectrum LSF: 分布式系统的“瑞士军刀”
文章插图
经过二十多年的发展,相对于最初的LSF 1.0版本,最新的LSF 10.1,不管是功能上,还是性能上,都得到了质的飞跃。LSF从最初简单的调度器,发展到今天丰富多彩的调度“航母”,不仅后向兼容,而且不断创新,支持层出不群的新技术和新平台,比如支持GPU和Kubernetes等,也支持机器学习的平台和作业,AI赋能,发展出了很多周边产品,一往无前的创新和完善的功能,让29岁的LSF成为了妥妥的“黑科技”。
在分布式管理和调度方面,LSF的功能可谓应有尽有,仅仅调度策略,就有数十种,比如先来先服务 (FCFS)、抢占 (Preemption)、资源需求 (Resource Requirement)、公开共享 (Fair share Scheduling)、服务水平的资源保障(Guarantee SLA)、资源预订 (Resource Reservations)、回填调度 (Backfill Scheduling)、亲和调度 (Affinity Scheduling)等。
LSF不光支持CPU等常见算力,而且也支持GPU调度。同时支持多集群调度,块调度、作业动态调度、许可证(License)调度,基于事件的调度、计算单元和作业包装、作业开始时间预测等功能。