torch|英伟达PyTorch优化神器重磅更新!10亿参数模型运行,GPT加速21倍( 二 )
文章插图
在NVIDIA A100 GPU上比较原生PyTorch和Torch-TensorRt的吞吐量
用TensorRT实现T5和GPT-2实时推理
Transformer架构完全改变了自然语言处理领域。近年来,许多新颖的大语言模型都建立在Transformer模块之上,比如BERT、GPT和T5。
T5和GPT-2简介
T5可以用来回答问题、做总结、翻译文本和分类文本。
T5(Text-To-Text Transfer Transformer,文本到文本转换Transformer)是谷歌创建的架构。它将所有自然语言处理(NLP)任务重新组织成统一的文本到文本格式,其中输入和输出总是文本字符串。
T5的架构能够将相同的模型、损失函数和超参数应用于任何自然语言处理任务,如机器翻译、文档摘要、问题回答和分类任务,如情感分析。
文章插图
T5模型的灵感来自于一个NLP领域的共识,即迁移学习已经在自然语言处理中取得了最先进的结果。
迁移学习背后的原理是,在大量可用的未标记数据上经过预训练的模型,可以在较小的特定任务的已标记数据集上进行针对性的微调。事实证明,预训练-微调模型比从头开始在特定任务数据集上训练的模型具有更好的结果。
文章插图
T5模型在许多下游自然语言处理任务上获得了最先进的结果。已发布的预训练T5的参数最多高达3B和11B。
虽说都是语言模型,GPT-2的长处在于生成优秀的文本。
GPT-2(Generative Pre-Trained Transformer 2)是一种自回归无监督语言模型,最初由OpenAI提出。
文章插图
它是由transformer解码器块构建的,并在非常大的文本语料库上进行训练,以预测文本的下一个单词。
文章插图
已发布的GPT-2模型中,最大的拥有1.5B参数,能够写出非常连贯的文本。
用TensorRT部署T5和GPT-2
虽然较大的神经语言模型通常会产生更好的结果,但将其部署到生产中会带来很大的挑战,尤其是对于在线应用程序,几十毫秒的额外延迟足以让用户的体验变差很多。
借助最新的TensorRT 8.2,英伟达针对大模型的实时推断这一需求,优化了T5和GPT-2。
首先,从Hugging Face模型中心下载Hugging Face PyTorch T5模型及其相关的tokenizer。
接下来,将模型转换为经过优化的TensorRT执行引擎。
不过,在将T5模型转换为TensorRT引擎之前,需要将PyTorch模型转换为一种中间通用格式:ONNX。
ONNX是机器学习和深度学习模型的开放格式。它能够将深度学习和机器学习模型从不同的框架(如TensorFlow、PyTorch、MATLAB、Caffe和Keras)转换为一个统一的格式。
然后,将准备好的T5 ONNX编码器和解码器转换为优化的TensorRT引擎。由于TensorRT执行了许多优化,例如融合操作、消除转置操作和内核自动调整(在目标GPU架构上找到性能最佳的内核),因此这一转换过程可能需要一段时间。
最后,就可以用T5的TensorRT引擎进行推理了。
同样,对于GPT-2模型也可以按照相同的过程生成一个TensorRT引擎。优化后的TensorRT引擎可以在HuggingFace推理工作流中替代原始的PyTorch模型。
TensorRT vs PyTorch CPU、PyTorch GPU
通过将T5或GPT-2转变为TensorRT引擎,与PyTorch模型在GPU上的推断时间相比,TensorRT的延迟降低了3至6倍,与PyTorch模型在CPU上的推断时间相比,延迟更是降低了9至21倍。
- 知乎|电商达人迎来补税大潮,知乎带货第一人,被通知补税34万!
- 央视|央视曝光直播电商以次充好乱象!有平台抽样不合格率达50%
- 能量密度达500Wh/kg!日本开发出新款锂空气电池
- 百度|传英伟达加大GeForce RTX 3050供应力度,大量供货将在春节后到来
- 400亿芯片交易接近尾声,英伟达、ARM表明态度,禁止收购后
- 文和友|泡泡玛特与飞书达成合作 新消费代表企业加速迁移飞书
- 入场券|元宇宙世界的“入场券”?市场规模将达2700亿元!这类人才太紧缺→
- 宋嘉吉|元宇宙世界的“入场券”?市场规模将达2700亿元!这类人才太紧缺
- 军工|中国版“英伟达”诞生,核心技术完全自研,国产替代即将崛起
- 英伟达 RTX 3090 Ti 经销商定价曝光,约 2.2 万元起