最高花费1700万美元,这是租卡训练谷歌5400亿参数PaLM的成本( 二 )


另一方面 , 我们经常看到 , 虽然平台提供的硬件更好了 , 但价格可能不怎么变化 。 因此 , 如果GoogleCloud给出的TPUv4与TPUv3的价格大致相同 , 那么这种估计就是公平的 。 但如果二者价格相差较大 , 那么实际成本也会有较大差异 。
最高花费1700万美元,这是租卡训练谷歌5400亿参数PaLM的成本
文章图片
按每FLOP的花销算
我们知道 , TPUv3芯片为bfloat16提供大约每秒123TFLOP(TFLOPS)的算力 。 当然 , 这只是表格里显示的峰值性能 。
最高花费1700万美元,这是租卡训练谷歌5400亿参数PaLM的成本
文章图片
由于不同情况下 , 硬件的利用率存在差异 , 所以实际的TFLOPS数据往往低于峰值数据 。 前面说过 , PaLM的FLOPs利用率达到了惊人的57.8% 。 与之前的诸多模型相比(如下图) , 这是一项新的记录 。
因此 , 作者假设PaLM在TPUv3上训练时硬件利用率达到50%:
按照这个算法 , 我们每一美元可以买到221PFLOPs 。 考虑到最后一次训练要用2.56×10^24FLOPs的算力 , 我们的最终花费大约是1160万美元:
按租用NVIDIA显卡算
两年前 , 有人给GPT-3算过一笔账 , 发现如果使用当时市场上价格最低的GPU云(使用LambdaGPU实例)来训练GPT-3 , 花费最低为460万美元 。
图源:https://lambdalabs.com/blog/demystifying-gpt-3/
如果只考虑PaLM的训练计算量是GPT-3的10倍这一事实 , PaLM的最终训练成本应为4600万美元左右 。
但是 , 文章里的数据毕竟是两年前的 , 而且用的是TeslaV100 。 现在的NVIDIAA100性能(Tensor性能)已经提升了一个数量级 。
因此 , 如果按硬件性能提高到原来的10倍 , 利用率是50%来计算 , PaLM的训练成本大概是920万美元左右 。
结论
作者用三种方法估计了PaLM的最终训练成本 , 结果分别为1700万美元、1160万美元和920万美元左右 。
但需要注意的是:
1、谷歌并不需要花那么多钱 , 他们拥有硬件 。 这里是假设终端消费者因租用TPUv3pod训练PaLM而向GoogleCloud支付的钱;
2、如果租用时间比较长 , 你可以拿到折扣(1年37%的折扣);
3、作者没有TPUv4的价格数据 , 所以使用了TPUv3的 。
4、这里假设你知道如何高效利用TPUv3pod , 将利用率提到50% , 这一利用率非常惊人;
5、这里只讨论最后一次训练的成本 , 不包括其他困难且费钱的工作 , 如工程、研究、测试等 。
最高花费1700万美元,这是租卡训练谷歌5400亿参数PaLM的成本】参考链接:https://blog.heim.xyz/palm-training-cost/