从预测到决策,九章云极DataCanvas 推出 YLearn 因果学习开源项目

2016年 , AlphaGo击败了围棋世界冠军、职业九段棋手李世石 , 以机器学习、深度学习为核心的人工智能技术 , 势不可挡地进入了大众视野 。 然而 , 在经历了之前几年的高速发展后 , 无论学术届还是工业界 , 无论基础理论还是实际应用 , 人工智能技术似乎都遇到了瓶颈 , 进展相对缓慢 。
造成这个现象的本质原因 , 是当前机器学习技术与通用人工智能(Artificialgeneralintelligence , AGI)之间还存在着巨大的鸿沟 。 一方面机器学习模型自身存在泛化能力和稳定性差的问题 , 并且过度依赖数据拟合 , 缺乏可解释性;另一方面人工智能的目标是实现“决策” , 而当前机器学习技术只能实现“预测” 。 前者需要提供指导性的分析 , 例如企业想实现销售增长、用户数量增加的目标 , 应该如何去做;而后者目前只能根据历史数据进行预测 , 告知企业未来会发生什么 。 现在数智化的企业更需要的 , 是自动化的“决策”而不仅仅是对未来的“预测” 。 以相关性为基础进行预测的机器学习 , 在面对需要因果关系为前提的决策性问题时就显得力不从心 。
正因为如此 , 2011年图灵奖得主JudeaPearl提到 , “机器缺乏对因果关系的理解可能是给它们提供人类水平智能的最大障碍” , 2019年图灵奖得主YoshuaBengio也说“因果关系对于机器学习的下一步进展非常重要” 。 因果推断(CausalInference)开始被认为是人工智能领域的一次范式革命 , 成为近年来的研究热点之一 。
从古希腊到2022年 , 因果推断正在成为AI领域热点研究方向
因果推断(CausalInference) , 是关于因果关系的推断 , 研究如何更加科学地识别变量间的因果关系 。
因果问题是一个非常古老的问题 , 当人们意识到某些事物的变化会导致另一些事物产生时 , 便有了对因果的直觉性思考 。 古希腊时期 , 亚里士多德提出了四因说 , 开启了对因果的哲学性思辩 。 18世纪 , 英国哲学家大卫·休谟提出了三大难以解决的问题 , 对因果关系的普遍性和必然性进行了反思 。 20世纪初 , 美国数学家JerzyNeyman提出了用于因果推断的“潜在结果”(potentialoutcomes)数学模型 , 把因果推断从一个哲学思考变成一个科学问题 , 成为因果推断发展过程中奠基性的突破 。
20世纪70年代 , 哈佛大学著名统计学家DonaldRubin在Neyman的研究基础上进行了进一步延伸 , 将其从完全随机实验的领域扩展为在观察性和实验性研究中思考因果关系的一般框架 , 也就是鲁宾因果模型RubinCausalModel(RCM) 。 差不多同一时期 , 另一位著名科学家 , 图灵奖得主、“贝叶斯网络之父”JudeaPearl , 利用结构因果图以及do-操作、反事实分析等概念 , 创建了结构因果模型StructuralCausalModel(SCM) 。 现代有关因果推断的理论研究就主要基于以上两个基本理论框架 。
因果推断主要解决因果发现(CausalDiscovery)、因果量识别(IdentificationofCausalQuantities)、因果效应评估(CausalEffectEstimation)、反事实预测(CounterfactualInference)和策略学习(PolicyLearning)五大类的问题 。
国内外的一些大型企业 , 近些年都在逐步加大对因果推断领域的投入和应用 。 UBER、滴滴等共享汽车的平台 , 在弹性定价上高度依赖因果分析模型来提高整体收益率 , 腾讯等视频平台则使用基于因果分析模型的广告投放工具来帮助提升用户ROI 。
从预测到决策,九章云极DataCanvas 推出 YLearn 因果学习开源项目
文章图片
现有的一些因果推断工具集
目前国际上关于因果推断的产品和工具也有很多 , 例如CausaLML、EconML、CausaLearn、DoWhy等等 。 不同产品和工具的侧重点都有所不同 , 例如CausaLML由UBER开源 , 定位是一个uplift建模专用的工具 , 主要解决因果效应评估类问题 。 EconML由微软研究院开源 , 重点也是围绕因果效应评估类问题 。 还有Causal-learn , 专注于解决因果发现类问题 。 可以发现 , 市面上的工具包各自解决了因果推断中的部分问题 , 缺少系统、完整的、综合性、端到端的因果学习工具包 。