教ChatGPT学会看图的方法来了

羿阁发自凹非寺
量子位|公众号QbitAI
2022年流行“文生图”模型 , 那2023年流行什么?
机器学习工程师DanielBourke的答案是:反过来!
这不 , 一个最新发布的“图生文”模型在网上爆火 , 其优秀的效果引发众多网友纷纷转发、点赞 。
教ChatGPT学会看图的方法来了
文章图片
不仅是基础的“看图说话”功能 , 写情诗、讲解剧情、给图片中对象设计对话等等 , 这个AI都拿捏得稳稳的!
比如 , 当你在网上刷到诱人的美食时 , 只需把图片发给它 , 它就会立马识别出需要的食材和做菜步骤:
教ChatGPT学会看图的方法来了
文章图片
甚至图片中的一些列文虎克的细节也能“看”得清清楚楚 。
当被问到如何才能从图片中倒着的房子里离开 , AI的回答是:侧面不是有滑梯嘛!
教ChatGPT学会看图的方法来了
文章图片
这只新AI名为BLIP-2(BootstrappingLanguage-ImagePre-training2) , 目前代码已开源 。
最重要的是 , 和以前的研究不同 , BLIP-2使用的是一种通用的预训练框架 , 因此可以任意对接自己的语言模型 。
有网友已经在畅想把接口换成ChatGPT后的强强组合了 。
教ChatGPT学会看图的方法来了
文章图片
作者之一StevenHoi更是放话:BLIP-2未来就是“多模态版ChatGPT” 。
教ChatGPT学会看图的方法来了
文章图片
那么 , BLIP-2神奇的地方还有哪些?一起往下看 。
理解能力一流BLIP-2的玩法可以说非常多样了 。
只需提供一张图片 , 你就可以与它对话 , 让它看图讲故事、推理、生成个性化文本等各种要求都能满足 。
举个例子 , BLIP-2不仅能轻松识别图片中的景点是长城 , 还能介绍出长城的历史:
中国的长城是公元前221年秦始皇为了保护帝都不受北方侵略而建造的 。
教ChatGPT学会看图的方法来了
文章图片
给它一张电影剧照 , BLIP-2不光知道出自哪 , 还知道故事的结局是be:泰坦尼克号沉没 , 男主淹死 。
教ChatGPT学会看图的方法来了
文章图片
在对人类神态的拿捏上 , BLIP-2同样把握得非常准确 。
被问到这张图片中的男人是什么表情 , 他为什么这样时 , BLIP-2的回答是:他害怕那只鸡 , 因为它正朝他飞来 。
教ChatGPT学会看图的方法来了
文章图片
更神奇的是 , 在许多开放性问题上 , BLIP-2的表现也很出色 。
让它根据下面的图片写一句浪漫的话:
教ChatGPT学会看图的方法来了
文章图片
它的回答是这样的:爱情就像日落 , 很难预见它的到来 , 但当它发生时 , 它是如此的美丽 。
教ChatGPT学会看图的方法来了
文章图片
这不光理解能力满分 , 文学造诣也相当强啊!
教ChatGPT学会看图的方法来了
文章图片
让它给图片中的两只动物生成一段对话 , BLIP-2也能轻松拿捏傲娇猫猫x蠢萌狗狗的设定:
猫:嘿 , 狗狗 , 我能骑在你背上吗?
狗:当然 , 为什么不呢?
猫:我已经厌倦了在雪地里行走 。
教ChatGPT学会看图的方法来了
文章图片
那么 , 如此强大的理解能力背后 , BLIP-2究竟是怎么做到的?