英伟达AI从图像中抽象出概念再生成新图像,幼儿这个技能终于学会
羿阁发自凹非寺
量子位|公众号QbitAI
人类幼崽2岁就能做的事 , AI竟然才学会?
早在2017年 , 就有网友吐槽:2岁幼童只要见过一次犀牛的照片 , 就能在其他图片里认出不同姿势、视角和风格的卡通犀牛 , 但AI却做不到 。
文章图片
直到现在 , 这一点终于被科学家攻克了!
【英伟达AI从图像中抽象出概念再生成新图像,幼儿这个技能终于学会】最新研究发现 , 只要给AI喂3-5张图片 , AI就能抽象出图片里的物体或风格 , 再随机生成个性化的新图片 。
文章图片
有网友评价:非常酷 , 这可能是我这几个月来看到的最好的项目 。
文章图片
它是如何工作的?让我们先来看几个例子 。
当你上传3张不同角度的陶瓷猫照片 , 可能会得到以下4张新图像:两只在船上钓鱼的陶瓷猫、陶瓷猫书包、班克斯艺术风格的猫以及陶瓷猫主题的午餐盒 。
文章图片
同样的例子还有艺术品:
文章图片
铠甲小人:
文章图片
碗:
文章图片
不只是提取图像中的物体 , AI还能生成特定风格的新图像 。
例如下图 , AI提取了输入图像的绘画风格 , 生成了一系列该风格的新画作 。
文章图片
更神奇的是 , 它还能将两组输入图像相结合 , 提取一组图像中的物体 , 再提取另一组的图像风格 , 两者结合 , 生成一张崭新的图像 。
文章图片
除此之外 , 有了这个功能 , 你还可以对一些经典图像“下手” , 给它们添加一些新元素 。
文章图片
那么 , 这么神奇的功能背后是什么原理呢?
尽管近两年来 , 大规模文本-图像模型 , 如DALL·E、CLIP、GLIDE等 , 已经被证明有很强的自然语言推理能力 。
但有一点:如果用户提出一些特定的需求 , 比如生成一张包含我最喜欢的童年玩具的新照片 , 或者把孩子的涂鸦变成一件艺术品 , 这些大规模模型都很难做到 。
为了应对这一挑战 , 研究给出了一个固定的、预先训练好的文本-图像模型和一个描述概念的小图像集(用户输入的3-5张图像) , 目标是找到一个单一的词嵌入 , 从小集合中重建图像 。 由于这种嵌入是通过优化过程发现的 , 于是称之为“文本倒置(TextualInversion)” 。
具体来说 , 就是先抽象出用户输入图像中的物体或风格 , 并转换为“S?”这一伪词(pseudo-word) , 这时 , 这个伪词就可以被当作任何其他词来处理 , 最后根据“S?”组合成的自然语句 , 生成个性化的新图像 , 比如:
“一张S?在海滩上的照片”、”一幅挂在墙上的S?的油画”、”以S2?的风格画一幅S1?” 。
文章图片
值得注意的是 , 由于本次研究应用了一个小规模、经过策划的数据集 , 因此在生成图像时能有效地避免刻板印象 。
- 显卡|GTX 2080显卡在过去之前一直存在,AMD和英伟达显卡出货量下降50%
- 阿迪达斯|阿迪CEO终于承认在中国犯了错,但怕是回不来了
- 本文转自:中国纪检监察报图为位于福建福清的“华龙一号”核电机组。|深度关注|从跟跑并跑到领跑
- 微信|远程控制2022年市场高达30亿元,中国科技实力不容小觑
- 暴雪|从入门到旗舰 什么价位的手机才能畅玩《暗黑破坏神:不朽》手游?
- 多家央企宣布从美国退市;百度萝卜快跑回应无人车出车祸丨邦早报
- 共享充电宝投放场景下沉,租借率高达90%
- 背胶一个备受争议的产品
- 苹果|价格高达2200元,LG全新平板本土发售,网友:性价比太低
- 三星|小米MIXFold2:让折叠屏从花哨变成实用,超越华为三星!