模块化的机器学习系统就够了吗？Bengio师生告诉你答案( 二 ) 机器之心报道机器之心编辑部

文章图片
规则。为了正确理解模块化系统并分析它们的优缺点，研究者考虑采用的综合设置允许对不同的任务要求进行细粒度的控制。尤其是必须在如下公式1-3中展示的数据生成分布上学习操作，他们称之为规则。

文章图片
给定上述分布，研究者定义了一个成为其专家的规则，也即规则r被定义为p_y(·|x,c=r) ，其中c是表示上下文的分类变量， x是输入序列。
任务。任务是由公式1-3中展示的一组规则（数据生成分布）描述。不同的{p_y(·|x,c)}_c集合意味着不同的任务。其中对于给定数量的规则，研究者在多个任务上训练模型以消除任何对特定任务的偏见。
模块。模块化系统由一组神经网络模块组成，其中每个模块都对整体输出做出贡献。通过如下函数形式可以看出这一点。

文章图片
其中y_m表示输出， p_m表示m^th模块的激活。
模型架构。模型架构描述了为模块化系统的每个模块或者单片系统的单个模块选择什么架构。在本文中，研究者考虑采用了多层感知机（MLP）、多头注意力（MHA）和循环神经网络（RNN）。重要的是，规则（或者数据生成分布）进行调整以适用于模型架构，比如基于MLP的规则。
数据生成过程
由于研究者的目标是通过合成数据来探究模块化系统，因此他们详细介绍了基于上文描述的规则方案的数据生成过程。具体地，研究者使用了简单的混合专家（MoE）风格的数据生成过程，希望不同的模块可以专门针对规则中的不同专家。
他们解释了适用于三种模型架构的数据生成过程，它们分别是MLP、MHA和RNN 。此外，每个任务下面都有两个版本：回归和分类。
MLP 。研究者定义了适用于基于模块化MLP系统的学习的数据方案。在这一合成数据生成方案中，一个数据样本包含两个独立的数字以及从一些分布中采样的规则选择。不同的规则生成两个数字的不同线性组合以给出输出，也即线性组合的选择是根据规则进行动态实例化，如下公式4-6所示。

文章图片
MHA 。现在，研究者定义了针对模块化MHA系统的学习而调整的数据方案。因此，他们设计了具有以下属性的数据生成分布，即每个规则分别由不同的搜索、检索概念以及检索信息的最终线性组合组成。研究者在如下公式7-11中用数学方法描述了这一过程。

文章图片
RNN 。对于循环系统，研究者定义了一种线性动态系统的规则，其中可以在任何时间点触发多个规则中的一个。在数学上，这一过程中如下公式12-15所示。

文章图片
模型
以往一些工作宣称端到端训练的模块系统优于单体系统，尤其是在分布式环境中。但是，对于这些模块化系统的好处以及它们是否真的根据数据生成分布进行专业化处理还没有详细和深度的分析。
因此，研究者考虑了四类允许不同程度专业化的模型，它们分别是Monolithic（单体）、Modular（模块化）、Modular-op和GT-Modular 。下表1展示了这些模型。