模块化的机器学习系统就够了吗?Bengio师生告诉你答案( 三 )


文章图片
Monolithic 。 单体系统是一个大型神经网络 , 它以整体数据(x,c)作为输入 , 并依此做出预测y^ 。 系统中显式baked的模块化或稀疏性没有出现归纳偏置 , 并完全取决于反向传播来学习解决任务所需的任何函数形式 。
Modular 。 模块化系统由很多模块组成 , 每个模块都是给定架构类型(MLP、MHA或RNN)的神经网络 。 每个模块m将数据(x,c)作为输入 , 并计算输出y?_m和置信度分数 , 跨模块归一化为激活概率p_m 。
Modular-op 。 模块化操作系统与模块化系统非常相似 , 仅有一点不同 。 研究者没有将模块m的激活概率p_m定为(x,c)的函数 , 而是确保激活仅由规则上下文C决定 。
GT-Modular 。 真值模块化系统作为oracle基准 , 即完美专业化的模块化系统 。
模块化的机器学习系统就够了吗?Bengio师生告诉你答案】研究者表明 , 从Monolithic到GT-Modular , 模型越来越多地包含模块化和稀疏性的归纳偏置 。
度量
为了可靠地评估模块化系统 , 研究者提出了一系列度量 , 不仅可以衡量此类系统的性能优势 , 还能通过崩溃和专业化这两种重要的形式进行评估 。
性能 。 第一组评估度量基于分布内和分布外(OoD)设置中的性能 , 反映了不同模型在各种任务上的表现 。 对于分类设置 , 研究者报告了分类误差;对于回归设置 , 研究者报告了损失 。
崩溃 。 研究者提出了一组度量Collapse-Avg和Collapse-Worst , 以此来量化模块化系统遭遇到的崩溃量(也即模块未充分利用的程度) 。 下图2展示了一个示例 , 可以看到模块3未被使用 。
专业化 。 为了对崩溃度量做出补充 , 研究者还提出了以下一组度量 , 即(1)对齐 , (2)适应和(3)量化模块化系统获得的专业化程度的逆互信息 。
实验
下图表明 , GT-Modular系统在大多数情况下都最优(左)的 , 这表明专业化是有益处的 。 我们还看到 , 在标准端到端训练的模块化系统和Monolithic系统之间 , 前者的表现优于后者但差距不大 。 这两个饼图共同表明 , 当前的端到端训练的模块化系统没有实现良好的专业化 , 因此在很大程度上是次优的 。
模块化的机器学习系统就够了吗?Bengio师生告诉你答案
文章图片
然后 , 该研究查看特定架构选择 , 并分析它们在越来越多的规则中的性能和趋势 。
模块化的机器学习系统就够了吗?Bengio师生告诉你答案
文章图片
图4显示 , 虽然完美的专业化系统(GT-Modular)会带来好处 , 但典型的端到端训练的模块化系统是次优的 , 不能实现这些好处 , 特别是随着规则数量的增加 。 此外 , 虽然这种端到端模块化系统的性能通常优于Monolithic系统 , 但通常只有很小的优势 。
模块化的机器学习系统就够了吗?Bengio师生告诉你答案
文章图片
在图7中 , 我们还看到不同模型的训练模式在所有其他设置上的平均值 , 平均值包含分类错误和回归损失 。 可以看到 , 良好的专业化不仅可以带来更好的性能 , 而且可以加快训练速度 。
模块化的机器学习系统就够了吗?Bengio师生告诉你答案
文章图片
下图显示了两个崩溃度量:Collapse-Avg、Collapse-Worst 。 此外下图还显示了针对不同规则数量的不同模型的三个专业化指标 , 对齐、适应和逆互信息:
模块化的机器学习系统就够了吗?Bengio师生告诉你答案
文章图片