可加性|普林斯顿大学王梦迪:从基础理论到通用算法,看见更大的AI世界观( 五 )


强化学习的边界,从奖励可加的马尔可夫决策过程,推广到更一般性的、更复杂的策略优化问题。这一系列工作收到了强化学习领域和数学优化领域的关注,连续两年在NeurIPS 2020与2021上被选为Spotlight Paper:

  • J Zhang, C Ni, Z Yu, CSzepesvári, M Wang. On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method. (NeurIPS 2021)
  • J Zhang, A Koppel, AS Bedi, C Szepesvari , Mengdi Wang. Variational Policy Gradient Method for Reinforcement Learning with General Utilities. (NeurIPS 2020)
面向未来,王梦迪在强化学习中的另一项重要研究,便是数据降维(Dimensionality Reduction)和离线学习 (Offline Learning)。
王梦迪的研究路线一向清晰:从理论研究出发,再将理论上的突破推向实际应用。基于离线数据的、在现实生活中落地的决策优化问题,便是王梦迪团队的一块「硬骨头」。
如前所述,在常见的游戏AI任务中,智能体能够通过不断模拟实验来收集数据,然后用这些数据来训练系统的策略网络。数据越多,算力充足,则算法越强,比如Alpha Go,AlphaStar,就能打败人类世界的冠军战队。
但在现实生活中,许多关键领域,比如医学与金融,并不具备像游戏般的完美模拟环境。因此,在模拟器上十分完美的强化学习算法,在现实生活中就未必能轻松地解决工程问题,比如医疗场景中的策略优化、复杂电力系统的最优控制等。这就是sim2real的难点。
王梦迪曾参加过一些医疗领域和生物技术领域的人工智能探索。在这些项目中,她的任务是将病人的病例数据当成「棋谱」,从中学习针对某一病例的诊断策略,并研究能否进一步优化诊断流程,降低病人的重症率。与游戏中的智能体可以「盲目」尝试、无限模拟不同,在医学环境中,病人没有办法做新的实验,而且数据可能极其有限。
在数据有限的情况下,研究者还能找到最优策略吗?亦或者是否可以退而求其次,将现有的策略进行最大程度的提高?如果要继续做实验,那么应该如何进行,才能以最小的代价收集到这些数据?这些问题,也就是「离线强化学习」所关心的问题。
显然,离线强化学习更看重「有效率」的尝试。王梦迪与团队通过数据降维的embedding方法,将数据从高维空间切换到低维空间,从而保留最有内容的信息,规避数据的过度拟合现象,为离线强化学习的研究开辟了新的道路。这些新探索在AI+医疗、新金融、AI「智造」等领域带来新的可能性。

5、面向未来的AI
应用数学和基础理论,往往是发现通用算法的起点。研究问题的通用性,逐渐拓宽研究的边界,加速了学科的交流与合作,也成就了王梦迪更大的研究世界观。
强化学习、统计优化是王梦迪组的两大研究方向,但她并没有将自己局限于机器学习的范畴。
青年科学家如王梦迪,成长于学科渐趋深度融合的大环境,也拥有了更大的研究世界观。在科研上,他们站在巨人的肩膀上,追求探索与创新的工作。跨学科作为火花碰撞的主要口子之一,自然对新一代的研究员有着致命的吸引力。
如果说达特茅斯会议的头脑风暴,是学科知识融合的起切口,那么,「AI for Science」(将人工智能应用于科学研究)似乎是人工智能首次作为一门成熟的独立学科,加入到学科间的交流中。科学领域的「大熔炉」是否会形成?答案仍未揭晓,但趋势却渐显。
「普林斯顿以科学为本,也愿意站在一个更高的理论角度来思考学科的发展,对AI for Science十分关注。」王梦迪谈道。
王梦迪对「AI for Science」的关注,始于2019年。那时,王梦迪在学术休假期间加盟DeepMind,兼职任高级研究科学家,也接触到了许多将人工智能技术用于科学研究的工作,比如能够预测蛋白质结构的 AlphaFold,不久前用神经网络求解混合整数规划(MIP)问题等。