模块化的机器学习系统就够了吗？Bengio师生告诉你答案机器之心报道机器之心编辑部

机器之心报道
机器之心编辑部
Bengio等研究者刚「出炉」的预印本论文，探讨了机器学习系统的一个重要方向问题。
深度学习研究者从神经科学和认知科学中汲取灵感，从隐藏单元、输入方式，到网络连接、网络架构的设计等，许多突破性研究都基于模仿大脑运行策略。毫无疑问，近年来在人工网络中，模块化和注意力经常被组合使用，并取得了令人印象深刻的结果。
事实上，认知神经科学研究表明，大脑皮层以模块化的方式表示知识，不同模块之间进行通信，注意力机制进行内容选择，这也就是上述提到的模块化和注意力组合使用。在近期的研究中，有人提出，大脑中的这种通信方式可能对深度网络中的归纳偏置有意义。这些高级变量之间依赖关系的稀疏性，将知识分解为尽可能独立的可重组片段，使得学习更有效率。
尽管最近的许多研究都依赖于这样的模块化体系架构，但研究者使用了大量的技巧以及体系架构修改，这使得解析真正的、可用的体系架构原则变得具有挑战性。
机器学习系统正逐渐显露出更稀疏、更模块化架构的优势，模块化架构不仅具有良好的泛化性能，而且还能带来更好的分布外(OoD)泛化、可扩展性、学习速度和可解释性。此类系统成功的一个关键是，用于真实世界设置的数据生成系统被认为由稀疏交互部分组成，赋予模型类似的归纳偏置将是有帮助的。然而，由于这些真实世界的数据分布是复杂和未知的，该领域一直缺乏对这些系统进行严格的定量评估。
由来自加拿大蒙特利尔大学的SarthakMittal、YoshuaBengio、GuillaumeLajoie三位研究者撰写的论文，他们通过简单且已知的模块化数据分布，对常见的模块化架构进行了全面评估。该研究强调了模块化和稀疏性的好处，并揭示了在优化模块化系统时面临挑战的见解。一作及通讯作者SarthakMittal为Bengio和Lajoie的硕士生。

文章图片
论文地址：https://arxiv.org/pdf/2206.02713.pdfGitHub地址：https://github.com/sarthmit/Mod_Arch
具体而言，该研究扩展了Rosenbaum等人的分析，并提出了一种方法来评估、量化和分析模块化架构的常见组成部分。为此，该研究开发了一系列基准和指标，旨在探索模块化网络的效能。这揭示了有价值的见解，不仅有助于识别当前方法的成功之处，还有助于识别这些方法何时以及如何失败的。
该研究的贡献可总结为：
该研究基于概率选择规则来开发基准任务和指标，并用基准和指标来量化模块化系统中的两个重要现象：崩溃（collapse）和专业化（specialization）。该研究提炼出常用的模块化归纳偏置，并通过一系列模型进行系统地评估，这些模型旨在提取常用的架构属性（Monolithic,Modular,Modular-op、GT-Modular模型）。该研究发现，当一个任务中有很多潜在规则时，模块化系统中的专业化可以显著提高模型性能，但如果只有很少的规则，则不会如此。该研究发现，标准的模块化系统在专注于正确信息的能力和专业化能力方面往往都不是最优的，这表明需要额外的归纳偏置。
定义/术语
本文中，研究者探究了一系列模块化系统如何执行常见的任务，这些任务由我们称为规则数据的合成数据生成过程制定。他们介绍了关键组成部分的定义，包括（1）规则以及这些规则如何形成任务，（2）模块以及这些模块如何采用不同的模型架构，（3）专业化以及如何评估模型。详细设置如下图1所示。