torch|英伟达PyTorch优化神器重磅更新!10亿参数模型运行,GPT加速21倍( 三 )


文章插图

T5-3B模型推断时间比较
与PyTorch模型在CPU上的推断时间相比,运行在A100 GPU上的TensorRT引擎将延迟缩小了21倍。
对NLP感兴趣的朋友,要是想加速大语言模型的推理过程,就快来试试TensorRT 8.2吧!
参考资料: