威力|颜水成发了个“简单到尴尬”的模型证明Transformer威力源自架构( 二 )

到底是整体架构重要？还是说PoolFormer中的池化模块刚好是一种简单却有效的Token Mixer？
团队的验证方法是把池化模块直接替换成恒等映射（Identity Mapping）。
结果令人惊讶，替换后在ImageNet-1K上也保留了74.3%的Top-1精度。
在此基础上无论是改变池化核尺寸、归一化方法、激活函数影响都不大。
最重要的是，在4个阶段中把注意力和空间全连接层等机制混合起来用性能影响也不大。
其中特别观察到，前两阶段用池化后两阶段用注意力这种组合表现突出。
这样的配置下稍微增加一下规模精度就可达到81%，作为对比的ResMLP-B24模型达到相同性能需要7倍的参数规模和8.5倍的累计乘加操作。

文章插图
最终，消融实验结果说明Transformer中具体到token mixer这个部分，具体用了哪种方法并不关键。
不增加模型规模的情况下，网络的整体结构才是对性能提升最重要的。
这样的整体结构被团队提炼出来，命名为MetaFormer。

文章插图
NLP上还会成立吗？这项研究由颜水成领导的Sea AI Lab和来自新加坡国立大学的成员共同完成。

文章插图
△颜水成
论文的最后，团队表示下一步研究方向是在更多场景下继续验证，如自监督学习和迁移学习。
除了视觉任务，也要看看在NLP任务上结论是否也成立。
另外发这篇论文还有一个目的：
呼吁大家把研究的重点放在优化模型的基础结构，而不是在具体模块上花太多精力去打磨。

文章插图
论文地址：
https://arxiv.org/abs/2111.11418
GitHub仓库：
https://github.com/sail-sg/poolformer
— 完 —
量子位 QbitAI · 头条号签约