pNLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端( 二 )

pNLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端
文章插图
【 pNLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端】图片

="bjh-image-caption>不过,这也还是prompt在VLM上的另一种尝试。它究竟适不适合用来处理CV领域的图像问题?CV领域能借鉴吗?在知乎上,有不少博主给出了自己的看法。知乎@陀飞轮从方法上给出了两条路径:如果是纯CV方向的prompt,也就是类似于ViT将图片拆分patch,每个patch实际上可以看成一个字符,那么也可以设计patch的prompt对模型进行训练,这其中也可以分成生成式(类似ViT)和判别式(类似self-supervised)两种方法。知乎@yearn则认为,就目前来看,continuous prompt是最有可能transfer到CV领域的一系列工作。最近transformer准备大一统CV,NLP,将image输入转化为patch的形式,也让研究人员更方便借鉴NLP的方法学习prompt。当然,@yearn也表示,要想真正将prompt应用到CV领域,还存在两个需要解决的难题:1、CV还不存在BERT,GPT这样具有统治力的预训练模型,因此近期内可能很难将prompt 做few-shot learning这一套搬过来。2、CV的downstream task更加复杂,感觉检测,分割这类任务要把prompt调work是一个非常大的工作量。但也有匿名用户直接认为,图像上只能用非常别扭的方法做一些任务。当然,视频反而可能应用得更好。pNLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端
文章插图
图片

="bjh-image-caption>那么,你认为prompt能应用在CV领域吗?