零样本学习超越CLIP！谷歌提出首个多模态稀疏化模型LIMoE( 二 ) 明敏发自凹非寺量子位|公众号

只不过有的会主要处理图像，有的主要处理文本，或者二者兼具。
还有在大多数情况下，都会有一个专家来处理所有包含文本表示的图像patch 。

文章图片
除了性能上的提升，使用稀疏化模型的好处还体现在降低计算成本上。
因为“多专家”的模式意味着，尽管多设了很多子模型，模型容量显著增加，但是实际计算成本并没有明显变化。
如果一次任务中只使用了一个子模型，那它的成本和标准Transformer的差不多。
比如LIMoE-H/14总共有5.6B参数，但是通过稀疏化，它只会使用每个token的675M参数。
OneMoreThing稀疏化模型一直是谷歌深度研究的一个方向，已经提出了MoE、GLaM在内的多个模型。
这次LIMoE也不是谷歌第一次魔改MoE 。
去年6月，他们提出了V-MoE ，是一种新型的视觉架构，今年已将全部代码开源。
参考链接：
https://ai.googleblog.com/2022/06/limoe-learning-multiple-modalities-with.html—完—
量子位QbitAI·头条号签约