谷歌用新AI超越自己：让Imagen能够指定生成对象，风格随意转换( 二 ) 羿阁发自凹非寺量子位|公众号

当然，作者也表示，这种方法并不局限于某个模型，如果DALL·E2经过一些调整，同样能实现这样的功能。
具体到方法上， DreamBooth采用了给物体加上“特殊标识符”的方法。
也就是说，原本图像生成模型收到的指令只是一类物体，例如[cat]、[dog]等，但现在DreamBooth会在这类物体前加上一个特殊标识符，变成[V][物体类别] 。
以下图为例，将用户上传的三张狗子照片和相应的类名（如“狗”）作为输入信息，得到一个经过微调的文本-图像扩散模型。
该扩散模型用“a[V]dog”来特指用户上传图片中的狗子，再把其带入文字描述中，生成特定的图像，其中[V]就是那个特殊标识符。

文章图片
至于为什么不直接用[V]来指代整个[特定物体]？
作者表示，受限于输入照片的数量，模型无法很好地学习到照片中物体的整体特征，反而可能出现过拟合。
因此这里采用了微调的思路，整体上仍然基于AI已经学到的[物体类别]特征，再用[V]学到的特殊特征来修饰它。
以生成一只白色的狗为例，这里模型会通过[V]来学习狗的颜色（白色）、体型等个性化细节，加上模型在[狗]这个大的类别中学到的狗的共性，就能生成更多合理又不失个性的白狗的照片。
为了训练这个微调的文本-图像扩散模型，研究人员首先根据给定的文本描述生成低分辨率图像，这时生成的图像中狗子的形象是随机的。
然后再应用超分辨率的扩散模型进行替换，把随机图像换成用户上传的特定狗子。

文章图片
研究团队DreamBooth的研究团队来自谷歌，第一作者是NatanielRuiz 。
NatanielRuiz是波士顿大学图像和视频计算组的四年级博士生，目前在谷歌实习。主要研究方向是生成模型、图像翻译、对抗性攻击、面部分析和模拟。

文章图片
论文链接附在文末，感兴趣的小伙伴们赶紧来看看吧～
论文地址：
https://arxiv.org/abs/2208.12242参考链接：[1]https://dreambooth.github.io/[2]https://twitter.com/natanielruizg/status/1563166568195821569[3]https://natanielruiz.github.io/—完—
量子位QbitAI·头条号签约