内核|大格局!第四范式要在一年内开源95%核心技术( 二 )


为 AI 而生的操作系统
在平台侧,第四范式推出了为 AI 而生的的操作系统内核——OpenAIOS。
内核|大格局!第四范式要在一年内开源95%核心技术
文章插图
AI 的应用深入来看要经历十几个步骤,不同的技术组件支撑了不同的步骤,而每一个步骤对资源的需求又有着较大的不同。第四范式将这些环节的能力面向计算、存储、通信三个方面进行了进一步的抽象和沉淀。
越来越多AI异构芯片的出现,加速了AI异构计算芯片对操作系统内核进行管理的细分需求,把计算负载从操作系统内核调度到集群上不同机器的不同芯片上。除了AI异构芯片外,不同的异构存储介质、异构通信设备都需要操作系统内核进行统一的管理。在异构设备管理的基础之上,保障任务的成功率与资源利用率,需要操作系统内核提供软硬协同的整体调度策略。
为了实现有效的算力,第四范式研究人员实现了异构 Kernel 深度优化、计算协同处理、资源调度等能力:
在算力方面,当数据量大到通用计算芯片无法处理时,OpenAIOS 的多级计算内核有针对性的设计硬件之间的协同处理策略,将计算任务进行工作量拆分,通过统一的智能化调度,将拆分后的任务给到不同的专用计算芯片进行处理。
在存储方面,因为内存和显存不够导致的任务失败是开发者最常遇到的难题。在不侵入现有应用和代码的情况下,OpenAIOS 在操作系统内部建立了一套面向内存和显存的多级存储内核,通过自动扩容策略和多级缓存机制将存储容量进行扩展,提高了任务的成功率。
在通信速率方面,数据的交换效率是人们关注的重点,OpenAIOS 提供了多级通信内核,在机器学习特有的梯度权重交换等环节,提供了低延迟、高吞吐的通信框架, 以及面向异构加速器的专用通信协议,减轻数据通信上的压力。
内核|大格局!第四范式要在一年内开源95%核心技术
文章插图
多设备的情况下,OpenAIOS 可以高效率调动 GPU 算力,提升模型训练时的速度。在 GPU 虚拟化的工作中,第四范式系统率先实现了应用零改造的显存扩容。
第四范式技术副总裁郑曌在发布会上宣布开源机器学习操作系统内核 OpenAIOS,以及面向实时智能决策的分布式机器学习数据库 OpenMLDB,面向开发者提供开箱即用的技术能力。
【 内核|大格局!第四范式要在一年内开源95%核心技术】开源地址:
OpenMLDB Github:
https://github.com/4paradigm/OpenMLDB
OpenAIOS Github:
https://github.com/4paradigm/openaios-platform
基于OpenAIOS内核,『AIOS社区版』也已经正式上线,AIOS的核心技术都会以「社区版」的形式,免费向开源社区开放, AIOS 社区版拥有多元的开发体验,支持Visual Studio、VSCode、Jupyter Notebook 等桌面和远程开发工具,内置核心应用和商店,同时支持第三方应用,又使用了原生的 Kubernetes 环境,拥抱所有云原生应用。
内核|大格局!第四范式要在一年内开源95%核心技术
文章插图
郑曌还宣布了 Knot「中国结」计划:在未来一年之内,公司将实现 95% 以上的核心技术开源开放,并为各家企业共计培养超过一万名 AI 应用开发工程师。
「我们相信 AI 决策是帮助企业转型的新范式,是能够带领企业走向质变的重要方法。第四范式希望能够帮助开发者做越来越多重要的工作」郑曌说道。
? THE END
转载请联系本公众号获得授权