百度入选ICML、IJCAI、ISIT等机器学习顶会的论文都在关注什么？( 五 ) 2021年

文章图片
12.不确定性感知二值神经网络
Uncertainty-awareBinaryNeuralNetworks
二值神经网络(BNN)是一种很有前途的机器学习解决方案，用于在资源有限的设备上部署。最近训练BNN的方法已经产生了令人印象深刻的结果，但是最小化全精确网络的精度下降仍然是一个目前面临的挑战。其中一个原因是，传统的BNN忽略了权值接近于零所引起的不确定性，导致了学习时的不稳定性或频繁翻转。
本文研究了接近零的权重消失的内在不确定性，这使得训练容易受到不稳定性的影响；同时引入了一种不确定性感知的BNN(UaBNN) ，利用一种新的映射函数确定符号(c-sign)来减少这些权值的不确定性。本文介绍的c-符号函数是第一个训练具有降低不确定性的BNN进行二值化的函数。该方法导致了神经网络的受控学习过程；同时还介绍了一种简单而有效的基于高斯函数的不确定度测量方法。大量实验表明，该方法改进了多种BNN方法，提高了训练的稳定性，取得了比现有技术更高的性能。

文章图片
13.疟疾控制的样本高效强本学习方法
Data-EfficientReinforcementLearningforMalariaControl
论文链接:https://arxiv.org/abs/2105.01620
成本敏感任务下的序列决策通常都令人望而生畏，尤其是对人们日常生活有重大影响的问题，例如疟疾控制、治疗建议。政策制定者面临的主要挑战是需要在与复杂环境只做几次互动的前提下，作出正确的策略。本工作引入了一种实用的、数据高效的策略学习方法，名为方差鼓励的蒙特卡洛树搜索方法，它可以应对数据量极少的情况，并且只需几次试验就可以学习到控制策略。具体来说，解决方案采用了基于模型的强化学习方法。为了避免模型偏差，我们应用高斯过程回归来显示建模状态的转换（称为世界模型）。基于这个世界模型，我们提出了通过估计的方差来衡量世界的不确定性。并在蒙特卡洛树搜索中将估计的方差作为额外的奖励，使得探索方法能更好的平衡探索和利用。此外，我们推导了方法的样本复杂度，结果表明方差鼓励的蒙特卡洛树搜索方法是样本高效的。最后，在KDDCUP的强化学习比赛中本方法出色的表现和大量的实验结果证实了其在具有挑战性的疟疾控制任务中明显优于SOTA 。

文章图片
14.基于模式扩展的对抗策略学习网络在序列推荐中的应用
Pattern-enhancedContrastivePolicyLearningNetworkforSequentialRecommendation
本论文跟北京邮电大学、武汉大学多位教授合作，关注的是序列推荐场景中对用户历史序列的去噪问题。由于用户行为的随机性和多样性，用户的历史记录中并不是所有的商品都对预测下一次的行为有帮助。大多数序列推荐方法都无法抽取出与目标商品存在可信赖的序列依赖关系，模型的可解释性也受到了很大的限制。我们希望从历史购物序列中挑选出对预测具有真正影响力的相关商品，去除序列中不相关的商品，从而提升序列推荐效果。如何在无标注的情况下，自动挖掘出与推荐结果相匹配的时序模式，提高推荐的可解释性和准确性，是本文最大的挑战。基于以上几点考虑，我们把序列去噪问题形式化为一个马尔可夫决策过程，将挖掘出来的序列模式用以增强每个商品的表达，作为指导去噪过程的一种先验知识。然后采用一种强化学习的策略模块，来判定用户购物序列中的商品与目标商品之间的关联性，从而将相关和不相关的商品区分开，并通过一个对比学习模块来加强模型的学习进程。实验结果表明，我们提出的方法可以有效地提取出相关商品并提升推荐效果。