零样本学习超越CLIP!谷歌提出首个多模态稀疏化模型LIMoE( 二 )


只不过有的会主要处理图像 , 有的主要处理文本 , 或者二者兼具 。
还有在大多数情况下 , 都会有一个专家来处理所有包含文本表示的图像patch 。
零样本学习超越CLIP!谷歌提出首个多模态稀疏化模型LIMoE
文章图片
除了性能上的提升 , 使用稀疏化模型的好处还体现在降低计算成本上 。
因为“多专家”的模式意味着 , 尽管多设了很多子模型 , 模型容量显著增加 , 但是实际计算成本并没有明显变化 。
如果一次任务中只使用了一个子模型 , 那它的成本和标准Transformer的差不多 。
比如LIMoE-H/14总共有5.6B参数 , 但是通过稀疏化 , 它只会使用每个token的675M参数 。
OneMoreThing稀疏化模型一直是谷歌深度研究的一个方向 , 已经提出了MoE、GLaM在内的多个模型 。
这次LIMoE也不是谷歌第一次魔改MoE 。
去年6月 , 他们提出了V-MoE , 是一种新型的视觉架构 , 今年已将全部代码开源 。
参考链接:
https://ai.googleblog.com/2022/06/limoe-learning-multiple-modalities-with.html—完—
量子位QbitAI·头条号签约