CUDA 通常被专门从事加速计算的人员使用,但在机器学习研究人员和数据科学家中却鲜为人知 。高效使用可能具有挑战性,并且需要深入了解硬件架构,这可能会减慢开发过程 。因此,机器学习专家可能依赖 CUDA 专家来修改、优化和并行化他们的代码 。
Triton 弥合了使高级语言能够实现与使用低级语言的语言相当的性能的差距 。Triton 内核本身对于典型的 ML 研究人员来说非常清晰,这对于可用性来说非常重要 。
Triton 在 SM 中自动执行内存合并、共享内存管理和调度 。Triton 对逐元素矩阵乘法不是特别有用,这已经非常有效地完成了 。Triton 对于昂贵的逐点操作和减少更复杂操作的开销非常有用,例如Flash Attention涉及矩阵乘法作为较大融合操作的一部分 。
OpenAI Triton 目前仅正式支持 Nvidia GPU,但在不久的将来这种情况会发生变化 。未来将支持多个其他硬件供应商,这个开源项目正在获得令人难以置信的动力 。其他硬件加速器直接集成到作为 Triton 一部分的 LLVM IR 的能力大大减少了为新硬件构建 AI 编译器堆栈的时间 。
Nvidia 庞大的软件组织缺乏远见,无法利用其在 ML 硬件和软件方面的巨大优势,成为机器学习的默认编译器 。他们缺乏对可用性的关注,这使得 OpenAI 和 Meta 的外部人员能够创建可移植到其他硬件的软件堆栈 。
- CPU|独家:阿里巴巴低调广结硬寨,2023年酒店智能化新战事
- 太空行动|独家:阿里巴巴低调广结硬寨,2023年酒店智能化新战事
- 英伟达|NVIDIA新技术让你“暗送秋波” 画面以假乱真
- 小米科技|微软收购动视暴雪更难了!NVIDIA出手阻挠
- AMD|AMD、Intel已用上 NVIDIA这次落后了?
- NVIDIA|当RTX 4080变成白色:爱了
- NVIDIA|RTX 4080悄然“变心”了
- NVIDIA|英伟达展示RTX 4080移动显卡:能耗大幅降低 远超前代旗舰
- NVIDIA|英伟达RTX 4070已在路上:价格成为了最大关注点
- |6499元不亏 RTX 4070 Ti成为NVIDIA 40系性价比最高显卡