NVIDIA|NVIDIA独家绝技 CUDA正在被赶下神坛?( 六 )


CUDA 通常被专门从事加速计算的人员使用,但在机器学习研究人员和数据科学家中却鲜为人知 。高效使用可能具有挑战性,并且需要深入了解硬件架构,这可能会减慢开发过程 。因此,机器学习专家可能依赖 CUDA 专家来修改、优化和并行化他们的代码 。
Triton 弥合了使高级语言能够实现与使用低级语言的语言相当的性能的差距 。Triton 内核本身对于典型的 ML 研究人员来说非常清晰,这对于可用性来说非常重要 。
Triton 在 SM 中自动执行内存合并、共享内存管理和调度 。Triton 对逐元素矩阵乘法不是特别有用,这已经非常有效地完成了 。Triton 对于昂贵的逐点操作和减少更复杂操作的开销非常有用,例如Flash Attention涉及矩阵乘法作为较大融合操作的一部分 。
OpenAI Triton 目前仅正式支持 Nvidia GPU,但在不久的将来这种情况会发生变化 。未来将支持多个其他硬件供应商,这个开源项目正在获得令人难以置信的动力 。其他硬件加速器直接集成到作为 Triton 一部分的 LLVM IR 的能力大大减少了为新硬件构建 AI 编译器堆栈的时间 。
Nvidia 庞大的软件组织缺乏远见,无法利用其在 ML 硬件和软件方面的巨大优势,成为机器学习的默认编译器 。他们缺乏对可用性的关注,这使得 OpenAI 和 Meta 的外部人员能够创建可移植到其他硬件的软件堆栈 。