torch|英伟达PyTorch优化神器重磅更新！10亿参数模型运行，GPT加速21倍( 三 )

文章插图

T5-3B模型推断时间比较
与PyTorch模型在CPU上的推断时间相比，运行在A100 GPU上的TensorRT引擎将延迟缩小了21倍。
对NLP感兴趣的朋友，要是想加速大语言模型的推理过程，就快来试试TensorRT 8.2吧！
参考资料：