训练|迷你版DALL-E:模型缩小27倍,训练成本仅200美元,在线可玩!

训练|迷你版DALL-E:模型缩小27倍,训练成本仅200美元,在线可玩!
文章插图

作者 | 维克多
自从今年1月份OpenAI祭出120亿参数魔法模型DALL·E,众多科研工作者开始对其进行多方位的剖析,希望也能做出给定“自然语言文字描述直接生成对应图片”的程序或软件。
120亿参数.........这意味着只有“顶级玩家”才能入局。如果缩小模型参数,程序还能跑出高质量的结果么?
今日,谷歌和Hugging Face的研究员们开放了一款DALL·E mini的小程序。顾名思义,作为DALL·E的复刻版,模型规模比原版小了27倍,且只在单个TPU v3-8上训练了3天。
mini版的DALL·E创造思路非常简单:在官方开源代码以及预训练模型的基础上,简化体系结构和减少模型内存需求。
效果如何?作者在博客中说:

“在硬件资源受限的情况下,虽然质量比较低,但结果仍然是令人印象深刻的。”
AI科技评论将其与正版DALL·E进行了对比,结果如下:
文本提示:穿着芭蕾舞短裙的萝卜宝宝在遛狗。
AI生成的图像:
训练|迷你版DALL-E:模型缩小27倍,训练成本仅200美元,在线可玩!
文章插图
图注:左边为DALL·E mini输出结果,右边为OpenAI官方博客中的示范
文本提示:写着“OpenAI”字样的店面。
AI生成的图像:
训练|迷你版DALL-E:模型缩小27倍,训练成本仅200美元,在线可玩!
文章插图
图注:左边为DALL·E mini输出结果,右边为OpenAI官方博客中的示范
文本提示:鳄梨形状的扶手椅。
AI生成的图像:
训练|迷你版DALL-E:模型缩小27倍,训练成本仅200美元,在线可玩!
文章插图
图注:左边为DALL·E mini输出结果,右边为OpenAI官方博客中的示范
通过以上对比,mini版的DALL·E只在“鳄梨形状的扶手椅”交出了令人满意的答卷,在“遛狗”和“店面”测试中,前者生成的是抽象派画面,后者只生成了店面......果然,魔法还是念完完整咒语,才能发挥最完美的效果。
训练|迷你版DALL-E:模型缩小27倍,训练成本仅200美元,在线可玩!
文章插图
目前,已经开放demo,在线可玩。
https://huggingface.co/spaces/flax-community/dalle-mini
考虑到较小规模的模型架构,以及只训练了三天,因此,其模型结构和训练方法对我们也有借鉴意义。
1
模型架构 训练|迷你版DALL-E:模型缩小27倍,训练成本仅200美元,在线可玩!
文章插图

图注:模型训练流程
1.图像通过VQGAN编码器进行编码,该编码器将图像转换为一系列tokens。
2.文字描述通过BART编码器进行编码。其中,BART解码器是一个自回归模型,其目标是预测下一个tokens。
3.损失函数来自VQGAN中真实图像编码和预测值之间的softmax cross entropy。
训练|迷你版DALL-E:模型缩小27倍,训练成本仅200美元,在线可玩!
文章插图
图注:模型推理流程
在推理时候,只有标题(captions)可用,图像生成过程如下:
1.标题通过BART 编码器编码
2.token 通过通过BART解码器传送