测试集|重磅！Nature子刊发布稳定学习观点论文：建立因果推理和机器学习的共识基础( 三 )

虚假相关性：风险的主要来源

如图所示，相关性有三种来源，即由因果性导致的相关性、干扰变量导致的相关性、由样本选择偏差导致的相关性。在这三种相关性中，只有由因果性导致的相关性是可以保证在各种环境下稳定成立、且可以被解释的。而目前的神经网络模型并没有对特征是否存在因果性加以区分，这也是导致模型性能不稳定的重要原因。

测试集|重磅！Nature子刊发布稳定学习观点论文：建立因果推理和机器学习的共识基础

文章插图

（相关性的三种来源）

论文进一步论述了机器学习可以避免由因果推理的基本问题引起的可验证性等挑战和局限性，并认为，机器学习和因果推理之间应该形成共识基础，稳定学习的框架正是实现这一目标的路径之一。

稳定学习：建立因果推理和机器学习的共识

论文还进一步阐述了稳定学习的定位与发展脉络，并比较了与常见的独立同分布模型和迁移学习模型的异同：

文章插图

独立同分布模型的训练和测试都在相同分布的数据下完成，测试目标是提升模型在测试集上的准确度，对测试集环境有较高的要求；
迁移学习同样期望提升模型在测试集上的准确度，虽然允许测试集的样本分布与训练集不同，但要求测试集样本分布已知；
稳定学习无需测试数据集与训练数据来自同一分布，并且不假设测试数据分布已知。测试目标是在保证模型平均准确度的前提下，降低模型性能在各种不同样本分布下的准确率方差。与上述学习模式相比，稳定学习的目标更接近现实的问题设置，理论上，稳定学习可以在不同分布的测试集下都有较好的性能表现。

结论

文章最后提出，如果我们希望机器学习算法能被进一步应用，需要解决稳定性、可解释性和公平性问题，而这些问题是当今学习范式的根本局限，需要从根本上加以解决。尽管业内对预测、相关性和因果关系的基础仍存在争论，因果推理，尤其是在观察研究中所取得的一些最新进展已经可以为机器学习提供更多的见解和理论支持。作为一种新的学习范式，稳定学习试图结合这两个方向之间的共识基础。如何合理地放松严格的假设，以匹配更多具有挑战性的真实应用场景，并在不牺牲预测能力的情况下使机器学习更可信，是未来稳定学习需要解决的关键问题。

论文完整内容参见Nature网站：https://www.nature.com/articles/s42256-022-00445-z

作者简介

文章插图

崔鹏

清华大学长聘副教授。于2010年获得清华大学博士学位，研究兴趣包括大数据环境下的因果推理与稳定预测、网络表征学习，及其在智慧医疗、商业决策等场景中的应用。从2016年起，崔鹏与团队开始深入研究如何将因果推理与机器学习相结合，并最终形成了“稳定学习”（Stable Learning）的研究方向。他在数据挖掘和多媒体领域的著名会议和期刊上发表了150多篇论文，并先后获得7项国际会议及期刊最佳论文奖。曾获得CCF-IEEE CS青年科学家奖，国家自然科学二等奖，以及省部级一等奖3项。目前是ACM杰出会员，CCF杰出会员以及IEEE高级会员。