谷歌用新AI超越自己:让Imagen能够指定生成对象,风格随意转换( 二 )
当然 , 作者也表示 , 这种方法并不局限于某个模型 , 如果DALL·E2经过一些调整 , 同样能实现这样的功能 。
具体到方法上 , DreamBooth采用了给物体加上“特殊标识符”的方法 。
也就是说 , 原本图像生成模型收到的指令只是一类物体 , 例如[cat]、[dog]等 , 但现在DreamBooth会在这类物体前加上一个特殊标识符 , 变成[V][物体类别] 。
以下图为例 , 将用户上传的三张狗子照片和相应的类名(如“狗”)作为输入信息 , 得到一个经过微调的文本-图像扩散模型 。
该扩散模型用“a[V]dog”来特指用户上传图片中的狗子 , 再把其带入文字描述中 , 生成特定的图像 , 其中[V]就是那个特殊标识符 。
文章图片
至于为什么不直接用[V]来指代整个[特定物体]?
作者表示 , 受限于输入照片的数量 , 模型无法很好地学习到照片中物体的整体特征 , 反而可能出现过拟合 。
因此这里采用了微调的思路 , 整体上仍然基于AI已经学到的[物体类别]特征 , 再用[V]学到的特殊特征来修饰它 。
以生成一只白色的狗为例 , 这里模型会通过[V]来学习狗的颜色(白色)、体型等个性化细节 , 加上模型在[狗]这个大的类别中学到的狗的共性 , 就能生成更多合理又不失个性的白狗的照片 。
为了训练这个微调的文本-图像扩散模型 , 研究人员首先根据给定的文本描述生成低分辨率图像 , 这时生成的图像中狗子的形象是随机的 。
然后再应用超分辨率的扩散模型进行替换 , 把随机图像换成用户上传的特定狗子 。
文章图片
研究团队DreamBooth的研究团队来自谷歌 , 第一作者是NatanielRuiz 。
NatanielRuiz是波士顿大学图像和视频计算组的四年级博士生 , 目前在谷歌实习 。 主要研究方向是生成模型、图像翻译、对抗性攻击、面部分析和模拟 。
文章图片
论文链接附在文末 , 感兴趣的小伙伴们赶紧来看看吧~
论文地址:
https://arxiv.org/abs/2208.12242参考链接:[1]https://dreambooth.github.io/[2]https://twitter.com/natanielruizg/status/1563166568195821569[3]https://natanielruiz.github.io/—完—
量子位QbitAI·头条号签约
- 6g|两年前,特朗普承诺要在6G研发上超越中国,现在美国到哪一步了?
- 苹果|继谷歌之后 美国司法部要起诉苹果垄断:会扼杀其他公司
- 系统升级能让手机变流畅?答案:苹果做不到,华为和谷歌也做不到
- Google|2.4亿台!华为鸿蒙破冰关键时刻,谷歌突然官宣,外媒:为时已晚
- 美科技巨头被曝收集用户数据:谷歌收集 39 种,苹果收集 12 种
- Google|爸爸发儿子私处图线上问诊,却被谷歌判定为恋童癖
- 芯片|正式确认!苹果、谷歌断供的后果出现了!
- |单个图像“转换”为视频!谷歌的DeepMind人工智能团队发布新功能!
- 互联网时代|“霸道总裁”张一鸣,TikTok拳打脸书谷歌?
- 谷歌|私人相册照片被谷歌AI举报:全网封杀、喊冤无门