pNLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端
萧箫 发自 凹非寺 报道 | 公众号 QbitAINLP的新秀prompt,最近着实有点火。
文章插图
图片
="bjh-image-caption>还跨界火到了VLM(Visual-Language model,视觉语言模型)。像OpenAI的CLIP,和南洋理工大学的CoOp都用了这种思路。现在,清华副教授刘知远团队最新发布的视觉语言模型论文中,也提出了一种基于prompt的新方法。
文章插图
图片
="bjh-image-caption>据论文表示,这也是首次将prompt用于cross-model和零样本/少样本学习视觉定位中。从目前的NLP和VLM模型来看,不少基于prompt的模型效果都不错,让搞CV的同学们也有点心动——能不能给我们也整一个?那么,prompt究竟好在哪,应用于图像端后是否也能收获不错的效果?一起来看看。与微调差别在哪?最初,在NLP模型还不太大的时候,大家会采用“预训练+微调(fine-tune)”的方式设计针对特定任务的模型。这种模式下,研究人员会预先训练出一个效果比较好的模型,再在保留大部分模型参数的情况下,根据特定任务(下游任务)调整部分参数,使得它在这一任务上达到最好的效果。
文章插图
图片
="bjh-image-caption>然而,随着预训练模型变得越来越大,微调的代价(训练时间、需求的数据量等)也在增加,研究人员有点吃不消了,开始找更好的方法。prompt就在这个时候出现了,只不过它这次是针对下游任务进行调整。它有点像是一种输入模板,用来给预训练模型“做出提示”,预训练模型一“看到”它,就知道自己要完成什么任务。例如,在情感分类任务中,希望预训练模型能体会到输入句子的情绪,并给出形容词来对它分类:输入“I love this movie.”后,提前给定一个prompt“This movie is [mask]”,让预训练模型一看到它,就明白自己要输出“great/nice”等夸赞的形容词。这样训练后,预训练模型就能在看到对应prompt时,选出正确的词汇类型,而不是“跑偏”去做别的事情。由于prompt在NLP领域的应用效果挺好,因此在与NLP相关的VLM模型中,不少研究人员也开始尝试这种方法。清华将它用到图像端当然,最初应用prompt的VLM模型,大多也还仍然是将它应用在文本端。据知乎@陀飞轮介绍,像OpenAI的CLIP、NTU的CoOp这两个VLM模型,prompt应用都与NLP中的PET模型有点像。从它们的模型设计来看,都能很明显从文本端看出prompt的影子,像CLIP中的“A photo of a [mask]”:
文章插图
图片
="bjh-image-caption>以及CoOp在CLIP上进一步改进的、在训练中能够自行优化的prompt:
文章插图
图片
="bjh-image-caption>这些prompt的应用,整体改进了VLM模型整体的输出效果。不过,这也基本都是VLM在文本端的应用,prompt到底适不适合被用在图像端上?最新来自清华刘知远团队的论文中,就尝试着在VLM的图像端中,以涂色的方式建立了一种visual sub-prompts。
文章插图
图片
="bjh-image-caption>当然,文本端也对应用上了prompt,不过据刘知远老师介绍,prompt在文本端的应用,感觉不足以完全发挥prompt tuning的作用,因此这篇论文尝试了一种cross-modal prompt tuning的方法。从论文的测试结果来看,这种方法在少样本学习(few-shot)的情况下,基本能取得比微调更好的效果。
- oppo k9|千元机新秀!OPPO K9x正式发布,1399到手太惊喜
- 读创/深圳商报记者袁静娴“咔擦咔擦”“滴答滴答”“咻、咻”……这是今年高交会的初创科技企...|小元件大工艺 第23届高交会初创科技企业展“新秀”
- 乳业|5年拿下20亿!如今再获美团龙珠参投,乳业新秀是如何爆红的?
- 海尔智家|风云突变!手机行业线下市场迎来新变局,新秀小米进入主赛道
- 红米手机|手机“新秀”变身亮眼“黑马”,这是为什么?
- 喜报近日|喜报!宝山这位创业者获评“第七届上海市十佳创业新秀”
- 两千元价位段的新秀,vivo T1双十一首日正式开售
- 剃须刀|中国剃须刀“新秀王”诞生!亮眼价爆卖96万台,飞利浦、飞科刮目相看
- Kindle|Kindle再也不香了,国产新秀墨案电纸书MIX7来了,凭实力圈粉
- 斯加|高颜值的白色内存新秀:阿斯加特女武神了解一下