文本生成图像这么火,你需要了解这些技术的演变( 二 )
该模型由两个编码器组成:一个用于文本 , 另一个用于图像 。 编码器产生嵌入(一个对象的多维向量表征 , 例如一个512字节的向量) 。 然后使用两个嵌入计算点积 , 并得出相似度得分 。 因为嵌入会被归一化 , 所以这个计算相似度得分的过程输出的是余弦相似度 。 对于指向相同方向的向量(它们之间的角度很小) , 余弦相似度接近1 , 对于正交向量 , 余弦相似度接近0 , 对于相反的向量 , 余弦相似度接近-1 。
文章图片
对比预训练过程可视化(图片来自原帖)
CLIP是一组模型 。 有9个图像编码器、5个卷积编码器和4个transformer编码器 。 卷积编码器是ResNet-50、ResNet-101和类似EfficientNet的模型 , 称为RN50x4、RN50x16、RN50x64(数字越大 , 模型越好) 。 transformer编码器是视觉Transformer(或称之为ViT):ViT-B/32、ViT-B/16、ViT-L/14和ViT-L/14@336 。 最后一个在分辨率为336×336像素的图像上进行微调 , 其他的则在224×224像素上进行训练 。
OpenAI分阶段发布了程序 , 首先发布了ViT-B/32和ResNet-50 , 然后是ResNet-101和RN50x4 , 然后RN50x16和ViT-B/16于2021年7月发布 , 然后是RN50x64和ViT-L/14在2022年1月发布 , 2022年4月终于出现了ViT-L/14@336 。
文本编码器是一个普通的transformer编码器 , 但具备掩码注意力机制 。 这个编码器由12层组成 , 每层有8个注意力头 , 总共有63M的参数 。 有趣的是 , 注意力跨度只有76个token(相比之下 , GPT-3有2048个token , 标准BERT有512个token) 。 因此 , 模型的文本部分只适用于相当短的文本 , 不能在模型中放入大段文本 。 由于DALL·E2和CLIP大致相同 , 应该也有相同的限制 。
CLIP预训练之后 , 可以将其用于不同的任务(有良好基础模型的优势) 。
最重要的是 , 读者可以使用在DALL·E中排序好的模型对多个结果进行评分 , 并选择最好的一个 。 或者 , 也可以使用CLIP功能在其之上训练自定义分类器 , 但是目前成功的例子还不是很多 。
接下来 , 可以使用CLIP对任意数量的类进行零样本分类(当没有专门训练模型以使用这些类时) 。 这些类可以在不重新训练模型的情况下进行调整 。
简单来说 , 可以为所需的多个类创建一个描述图片中物体的文本数据集 。 然后为这些描述生成文本嵌入并将它们存储为向量 。 当图像用于分类时 , 使用图像编码器生成图像嵌入 , 并计算图像嵌入和所有预先计算的文本嵌入之间的点积 。 选择得分最高的对 , 其对应的类就是结果 。
文章图片
用于使用CLIP进行零样本分类的程序 。
零样本分类模型是说并未针对特定类别集训练模型 。 现在可以选择使用预训练的CLIP进行即时工程(与使用GPT模型相同) , 而不是从头开始训练分类器或通过微调预训练的图像模型 。
很多人没有想到 , 也可以使用CLIP生成图像(即使它并没有被预设可以这样做) 。 成功案例包括CLIPDraw和VQGAN-CLIP 。
文章图片
CLIPD绘制示例 。 图片来自原论文 。
文章图片
【文本生成图像这么火,你需要了解这些技术的演变】VQGAN-CLIP及其文本prompt的生成示例 。 图片来自原论文 。
该过程简单而美观 , 与DeepDream非常相似 。 从想要的图像的文本描述和初始图像(随机嵌入、样条线或像素中的场景描述、任何以可区分方式创建的图像)开始 , 然后运行一个生成图像的循环 , 加入一些增强以提高稳定性 , 获得结果图像的CLIP嵌入 , 并将其与描述图像的文本的CLIP嵌入进行比较 。 根据此差异计算损失 , 并运行梯度下降程序 , 以此来更新图像、减少损失 。 经过一些迭代后 , 可以得到很好地匹配文本描述的图像 。 创建初始场景的方式(使用样条线、像素、渲染基元、来自VQGAN的潜在代码等)会显著影响图像特征 。
- 文本转语音、OCR识别、翻译,大厂付费还好用的文字转语音工具
- 太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
- 今晚19:30|荣耀70系列发布:全球首发imx800图像传感器
- Excel 中的文本数字,必须按数值的规则排序?是不是有点强人所难
- 新智元报道编辑:袁榭 拉燕新智元导读2022年5月26日|Nature重磅!在机器人骨架上首次生成人类肌腱细胞
- 小米12|小米 12S 图像实时泄漏,揭示徕卡品牌
- 逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen
- 小米科技|小米手环 7 NFC 规格通过零售包装盒图像浮现
- 荣耀|IMX800+荣耀图像引擎,AI加持荣耀70打造轻薄影像旗舰
- 炸场!DeepMind通用人工智能新突破:一套权重通吃视觉文本和决策