文本生成图像这么火，你需要了解这些技术的演变( 二 ) 选自Intento作者：GrigorySapunov机

该模型由两个编码器组成：一个用于文本，另一个用于图像。编码器产生嵌入（一个对象的多维向量表征，例如一个512字节的向量）。然后使用两个嵌入计算点积，并得出相似度得分。因为嵌入会被归一化，所以这个计算相似度得分的过程输出的是余弦相似度。对于指向相同方向的向量（它们之间的角度很小），余弦相似度接近1 ，对于正交向量，余弦相似度接近0 ，对于相反的向量，余弦相似度接近-1 。

文章图片
对比预训练过程可视化（图片来自原帖）
CLIP是一组模型。有9个图像编码器、5个卷积编码器和4个transformer编码器。卷积编码器是ResNet-50、ResNet-101和类似EfficientNet的模型，称为RN50x4、RN50x16、RN50x64（数字越大，模型越好）。 transformer编码器是视觉Transformer（或称之为ViT）：ViT-B/32、ViT-B/16、ViT-L/14和ViT-L/14@336 。最后一个在分辨率为336×336像素的图像上进行微调，其他的则在224×224像素上进行训练。
OpenAI分阶段发布了程序，首先发布了ViT-B/32和ResNet-50 ，然后是ResNet-101和RN50x4 ，然后RN50x16和ViT-B/16于2021年7月发布，然后是RN50x64和ViT-L/14在2022年1月发布， 2022年4月终于出现了ViT-L/14@336 。
文本编码器是一个普通的transformer编码器，但具备掩码注意力机制。这个编码器由12层组成，每层有8个注意力头，总共有63M的参数。有趣的是，注意力跨度只有76个token（相比之下， GPT-3有2048个token ，标准BERT有512个token）。因此，模型的文本部分只适用于相当短的文本，不能在模型中放入大段文本。由于DALL·E2和CLIP大致相同，应该也有相同的限制。
CLIP预训练之后，可以将其用于不同的任务（有良好基础模型的优势）。
最重要的是，读者可以使用在DALL·E中排序好的模型对多个结果进行评分，并选择最好的一个。或者，也可以使用CLIP功能在其之上训练自定义分类器，但是目前成功的例子还不是很多。
接下来，可以使用CLIP对任意数量的类进行零样本分类（当没有专门训练模型以使用这些类时）。这些类可以在不重新训练模型的情况下进行调整。
简单来说，可以为所需的多个类创建一个描述图片中物体的文本数据集。然后为这些描述生成文本嵌入并将它们存储为向量。当图像用于分类时，使用图像编码器生成图像嵌入，并计算图像嵌入和所有预先计算的文本嵌入之间的点积。选择得分最高的对，其对应的类就是结果。

文章图片
用于使用CLIP进行零样本分类的程序。
零样本分类模型是说并未针对特定类别集训练模型。现在可以选择使用预训练的CLIP进行即时工程（与使用GPT模型相同），而不是从头开始训练分类器或通过微调预训练的图像模型。
很多人没有想到，也可以使用CLIP生成图像（即使它并没有被预设可以这样做）。成功案例包括CLIPDraw和VQGAN-CLIP 。

文章图片
CLIPD绘制示例。图片来自原论文。

文章图片
【文本生成图像这么火，你需要了解这些技术的演变】VQGAN-CLIP及其文本prompt的生成示例。图片来自原论文。
该过程简单而美观，与DeepDream非常相似。从想要的图像的文本描述和初始图像（随机嵌入、样条线或像素中的场景描述、任何以可区分方式创建的图像）开始，然后运行一个生成图像的循环，加入一些增强以提高稳定性，获得结果图像的CLIP嵌入，并将其与描述图像的文本的CLIP嵌入进行比较。根据此差异计算损失，并运行梯度下降程序，以此来更新图像、减少损失。经过一些迭代后，可以得到很好地匹配文本描述的图像。创建初始场景的方式（使用样条线、像素、渲染基元、来自VQGAN的潜在代码等）会显著影响图像特征。