谷歌用新AI超越自己:让Imagen能够指定生成对象,风格随意转换

羿阁发自凹非寺
量子位|公众号QbitAI
给Imagen加上“指哪打哪”的能力 , 会变得有多强?
只需上传3-5张指定物体的照片 , 再用文字描述想要生成的背景、动作或表情 , 就能让指定物体“闪现”到你想要的场景中 , 动作表情也都栩栩如生 。
谷歌用新AI超越自己:让Imagen能够指定生成对象,风格随意转换
文章图片
不止是动物 , 其他物体像墨镜、书包、花瓶 , 也都能做出几乎以假乱真的成品:
谷歌用新AI超越自己:让Imagen能够指定生成对象,风格随意转换
文章图片
属于是发朋友圈也不会被别人看出破绽的那种 。 (手动狗头)
这个神奇的文字-图像生成模型名叫DreamBooth , 是谷歌的最新研究成果 , 基于Imagen的基础上进行了调整 , 一经发布就在推特上引发热议 。
谷歌用新AI超越自己:让Imagen能够指定生成对象,风格随意转换
文章图片
有网友调侃:这简直是最先进的梗图生成器 。
谷歌用新AI超越自己:让Imagen能够指定生成对象,风格随意转换
文章图片
谷歌用新AI超越自己:让Imagen能够指定生成对象,风格随意转换
文章图片
目前相关研究论文已上传至arXiv 。
谷歌用新AI超越自己:让Imagen能够指定生成对象,风格随意转换
文章图片
几张照片就能“环游世界”在介绍原理前 , 让我们先来看看DreamBooth的各种能力 , 包括换景、指定动作表情服饰、更迭风格等 。
如果你是个“铲屎官” , 有了这个模型的“换景能力” , 就能足不出户送自家狗子走出家门 , 凡尔赛宫里、富士山脚下……通通不在话下 。
谷歌用新AI超越自己:让Imagen能够指定生成对象,风格随意转换
文章图片
△光照也比较自然不仅如此 , 宠物的动作和表情也都能随意指定 , 属实是把“一句话P图”的细节拿捏到位了 。
谷歌用新AI超越自己:让Imagen能够指定生成对象,风格随意转换
文章图片
谷歌用新AI超越自己:让Imagen能够指定生成对象,风格随意转换】除了上面的“基操”以外 , DreamBooth甚至还能更换各种照片风格 , 也就是所谓的“加滤镜” 。
例如 , 各种“世界名画”画风、各种视角的狗子 , 简直不要太艺术:
谷歌用新AI超越自己:让Imagen能够指定生成对象,风格随意转换
文章图片
至于给它们加上装饰?各种cosplay的小道具 , 也是小菜一碟 。
谷歌用新AI超越自己:让Imagen能够指定生成对象,风格随意转换
文章图片
除此之外 , 无论是更换颜色:
谷歌用新AI超越自己:让Imagen能够指定生成对象,风格随意转换
文章图片
还是更魔幻一点 , 更换物种 , 这只AI也都能做到 。
谷歌用新AI超越自己:让Imagen能够指定生成对象,风格随意转换
文章图片
那么 , 如此有趣的效果背后的原理是什么呢?
给输入加个“特殊标识符”研究人员做了个对比 , 相较于其他大规模文本-图像模型如DALL-E2、Imagen等 , 只有采用DreamBooth的方法 , 才能做到对输入图像的忠实还原 。
如下图所示 , 输入3张右边表盘上画着黄色“3”的小闹表 , 其中DreamBooth生成的图像完美保留了钟表的所有细节 , 但DALL-E2和Imagen几次生成的钟都与原来的钟“有那么点差异” 。
谷歌用新AI超越自己:让Imagen能够指定生成对象,风格随意转换
文章图片
△李逵和“李鬼”而这也正是DreamBooth最大的特点——个性化表达 。
用户可以给定3-5张自己随意拍摄的某一物体的图片 , 就能得到不同背景下的该物体的新颖再现 , 同时又保留了其关键特征 。