重庆大学刘礼:因果学习与应用

重庆大学刘礼:因果学习与应用
文章图片
作者|刘礼
编辑|维克多
因果学习作为人工智能领域研究热点之一 , 其研究进展与成果也引发了众多关注 。 4月9日 , 在AITIME青年科学家——AI2000学者专场论坛上 , 重庆大学大数据与软件学院教授刘礼做了《因果学习与应用》的报告 。
在报告中 , 他从辛普森悖论入手 , 分析了当前机器学习面临的困难 , 然后介绍了几个主流因果框架解决“非独立同分布”、“结合知识”的思路 , 以及框架的优缺点 , 例如他提到:
“目前有两套主要的因果模型:Pearl的结构因果模型 , 以及Rubin的潜在结果模型 。 两者都可以预测、干预以及回答反事实问题 , 但对于“发现定理知识”不确定是否可行 。 潜在结果模型的不同之处在于 , 可以从数据中学习 , 但结合现有知识较为困难 , 结构因果模型则相反 , 可以结合现有知识 , 但从数据中学习的能力还亟待进一步检验 。 ”
此外 , 他还结合自己的工作成果 , 提到了因果框架如何应用于图像合成、疾病诊断、行为识别等例子 , 以下是演讲原文 , AI科技评论做了不改变原意的整理 。
今天报告的内容是因果学习及其应用 。 该领域最著名的一个例子是辛普森悖论:在700例肾病患者中 , 观察他们服药情况 , 发现服药男性的治愈率是93% , 女性治愈率73% , 不服药的男性治愈率为87% , 女性为69% 。 分男女组别考察 , 能够得出”服药有助于恢复”的结论 , 但从整体样本考察 , 会发现不服药的治愈率83%高于服药的治愈率78% 。
重庆大学刘礼:因果学习与应用
文章图片
另外一个辛普森悖论的例子关于房价 。 10年前 , 某城市市中心的房价是8000元/平米 , 共销售了1000万平;高新区是4000元/平米 , 共销售了100万平;整体来看 , 该市7636元/平米;现在 , 市中心10000元/平米 , 销售了200万平;高新区是6000元/平米 , 销售了2000万平 , 整体来看 , 该市6363元/平米 。 因此 , 分区来看分别都涨了 , 但从整体上看 , 会有疑惑:为什么现在的房价反而跌了?
辛普森悖论虽然不是新提出的 , 但却是各领域不可忽视“顽疾” 。 2019年 , 新冠爆发时 , 有学者分国家对病死率进行了统计 , 如上图 , 在各个年龄段 , 中国的病死率都比意大利高;但整体统计下来 , 意大利却反而更高 。
这种分组和整体结论不同的情况 , 也是机器学习模型的困境 。 例如训练数据和测试数据不满足独立同分布的假设 , 那么机器学习在分布偏移情况下很难鲁棒地学习 , 在新的场景中很难使用现有的模型 。
实际上 , 目前基于数据驱动的机器学习方法 , 训练出的模型都得出的结论大多是变量和变量之间的相关关系 , 而不是因果关系 。 例如之前有项研究发现 , 在某大国暴力犯罪与腌黄瓜消耗密切相关 , 但这种相关性并不代表因果性 。
重庆大学刘礼:因果学习与应用
文章图片
从因果的角度 , 辨析腌黄瓜和暴力犯罪之间的关系需要考虑混淆变量 。 如上图 , 混淆变量会同时影响独立变量和因果变量 , 从而造成两者之间的伪相关 。 如果将传统统计和因果推断进行对比 , 有以下几个特点:
重庆大学刘礼:因果学习与应用
文章图片
在90年代 , 知识驱动的机器学习方法占据主流 , 基于人类知识 , 编码成规则 , 让计算机自动在规则之上进行推理 。 深入思考 , 其实西方科学的发展史就是因果问题 , 这套真理体系+推理体系我们从小就在学习:已知1+1=2 , 1+2=3 , 可以推导得出1+1+1=3 。