标注|一个模型搞定图像标注、读图问答两件事,VQA准确率逼近人类水平

明敏 发自 凹非寺
量子位 | 公众号 QbitAI
现在,丢给AI一张图,它不仅能看图说话,还能应对人们提出的刁钻问题了。
比如,给它看一张经典卷福照。
标注|一个模型搞定图像标注、读图问答两件事,VQA准确率逼近人类水平
文章插图
它便能回答出:
一个穿着西服、正在比划手势的男人。
那么图中男人的眼睛是什么颜色的呢?
蓝色。
标注|一个模型搞定图像标注、读图问答两件事,VQA准确率逼近人类水平
文章插图
我定睛一看,还真是如此!
这就是视觉-语言领域的新成果:BLIP (Bootstrapping Language-Image Pre-training)。
它突破性地将过去往往只能单独执行的视觉-文本生成、视觉-文本理解两种任务整合在了一起,让AI可以在看图说话和视觉问答两种模式来回切换。
并且在各种任务上的表现也都优于过去SOTA方法,VQA准确率超过78%,逼近人类基准线(80.83%)。
话不多说,就让我们来试玩一下,看看这个模型究竟有多厉害。
Demo试玩BLIP可以提供两种功能。
第一是描述图片的内容,第二是回答有关图片的提问。
上传好图片后,便可从图片下方的模式中任选一种进行试玩。
标注|一个模型搞定图像标注、读图问答两件事,VQA准确率逼近人类水平
文章插图
首先我们来看看它看图说话的水平如何。
上传了一张有小孩、猫、狗多种元素的图片后,模型输出的内容为:
一个小男孩和一只猫、一只狗一起趴在地上。
标注|一个模型搞定图像标注、读图问答两件事,VQA准确率逼近人类水平
文章插图
再提问试试看:
图中有鱼吗?
BLIP:NO.
标注|一个模型搞定图像标注、读图问答两件事,VQA准确率逼近人类水平
文章插图
可以看到,BLIP对图片的理解很到位,那么再多换几张图片呢?
当我们上传蒙娜丽莎的画像后,模型很轻松地辨别出来了这是一张女人的画像,并非是一张照片。
标注|一个模型搞定图像标注、读图问答两件事,VQA准确率逼近人类水平
文章插图
即便是上传一张恶搞的奥特曼图片,也没有难倒BLIP,并且还给出了一个一本正经的回答:
一个男人端着一个插有蜡烛的蛋糕。
标注|一个模型搞定图像标注、读图问答两件事,VQA准确率逼近人类水平
文章插图
甚至问它:蛋糕是在男人的左手上还是右手上?BLIP都能给出正确的答案:
右手。
标注|一个模型搞定图像标注、读图问答两件事,VQA准确率逼近人类水平
文章插图
这波操作属实是6到我了。
【 标注|一个模型搞定图像标注、读图问答两件事,VQA准确率逼近人类水平】那么它背后的原理是什么呢?我们一起来看。
学习带噪图像-文本对BLIP这次主要做的工作有两方面。
第一,它使用了一个多任务模型(MED),将多种任务预训练整合在了一起。
标注|一个模型搞定图像标注、读图问答两件事,VQA准确率逼近人类水平
文章插图
从框架图中看到,MED主要包括3个部分:
单峰编码器,可以用图像-文本对比损失(ITC)训练,让视觉和文本表征对齐。
基于图像的文本编码器,可以用传统的交叉注意层来模拟视觉-语言信息的转换,并通过图像-文本匹配损失(ITM)来进行训练,从而来区分正、负图像-文本对。
基于图像的文本解码器,可以将双向自注意力层转换为因果自注意力层,并且与编码器共享同一个交叉注意力层和前馈网络。解码器通过语言建模训练(LM)来输出文字标注。
由此,该模型可以执行图像-文本对比、图像-文本匹配和图像语言生成任务。
第二方面,研究人员提出了一种新型的数据自举法(CapFilt)。它可以让模型从带有噪声的图像-文本对中学习。